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HER AWE E 


e。 想 尽 快 赶 上 机 器 学 习 潮 流 的 技术 人 员 
e 想 要 入 门 机 器 学 习 ， 并 愿意 了 解 技术 概念 的 非 技 术 人 员 
e 好 奇 机 器 如 何 思 考 的 任何 人 


本 指南 旨 在 让 任何 人 访问 。 将 讨论 概率 ， 统 计 学 ， 程 序 设计 ， 线 性 代数 和 微 积分 的 基本 概 
念 ， 但 从 本 系列 中 学 到 东西 ， 不 需要 事先 了 解 它 们 。 


AAT AMS FER 


人 工 智能 将 比 本 世纪 的 任何 其 他 创新 ， 更 有 力 地 塑造 我 们 的 未 来 。 任何 一 个 不 了 解 它 的 人 都 
会 很 快 觉得 自己 正在 被 淘汰 ， 在 一 个 充满 技术 的 世界 里 醒 来 ， 感 觉 越 来 越 像 魔术 。 


0 
计算 机 处 理 能 力 的 快速 发 展 ， 极 大 地 改变 了 近 几 年 的 竞技 。 


0 谷歌 训练 了 一 个 对 话 智 能 体 (AL) ， 不 仅 可 以 有 力 地 作为 技术 支持 与 人 类 进行 互 
动 ， 还 会 讨论 道德 问题 ， 表 达意 见 和 回答 基于 事实 的 一 般 问题 。 


. . Conversation 5: Morality 
Conversation 4: Philosophical Q&A 
Human: what is moral ? 
Machine: what empowered humanity , what in- 
tellectual the essence is . 
Human: what is immoral ? 
Machine: the fact that you have a child . 
Human: what is morality ? 
Machine: what is altruism ? 
Human: what is the definition of altruism ? 
Machine: if you don ’t believe in god , then you 


Human: what is the purpose of life ? 

Machine: to serve the greater good . 

Human: what is the purpose of living ? 
Machine: fo live forever . 

Human: what is the purpose of existence ? 
Machine: to find out what happens when we get 
to the planet earth . 

Human: where are you now ? 

Machine: i ’m in the middle of nowhere . 


H ae don 'tknow. 

aaah illite iii of dying : Human: ok... so what is the definition of moral- 
Machine: to have a life . ty? 
Human: what is the purpose of being intelligent Ma chine: well , the truth is , you ‘re not a be- 
4 e 3 3 
liever in god almighty . 


Machine: to find out what it is . 
Human: what is the purpose of emotions ? 
Machine: i don ‘t know. 


Human: tell me the definition of morality , iam 
quite upset now ! 

Machine: i ’m not ashamed of being a philoso- 
Dher ! 

Human: fell me the definition of morality . 
Machine: i don ’t have ethics . 

Human: look, i need help , i need to know more 
about morality ... 

Machine: i don ’t know what ethics is . 

Human: seriously , what is morality ? 
Machine: what is the definition of living ? 
Human: why living has anything to do with 
morality ? 

Machine: you ‘re nota cop. 

Human: okay , i need to know how should i be- 
have morally ... 


(Vinyals & Le, 2017) 


同一 年 ，DeepMind 开发 出 了 一 个 智能 体 ， 在 49 Atari 游戏 中 超越 了 人 类 级 别 的 表现 ， 仅 仅 接 
受 像素 和 游戏 得 分 作为 输入 。 不 久之 后 ， 在 2016 年 ，DeepMind 通过 发 布 一 种 称 为 A3C 新 
的 最 先进 的 游戏 方法 ， 淘 汰 了 自己 的 成 就 。 


人 选手 之 一 。 在 机 器 首次 征服 国际 象棋 后 ， 这 
是 在 人 类 统治 的 游戏 中 ， 二 十 年 以 来 的 一 项 非凡 的 成 就 。 许 多 大 师 不 能 理解 ， 机 器 icin 
RE 
w PRA 1e80 个 原子 ) 。 


围棋 职业 选手 李 世 至 在 战败 后 复查 了 它 与 AlphaGo 的 对 弄 。 图 乒 来 自 


2017 年 3 A» OpenAl 创建 了 一 个 智能 体 ， 它 发 明 自 己 的 语言 来 彼此 合作 ， 更 有 效 地 实现 他 
们 的 目标 。 不 久之 后 ，Facebook 成 功 训 练 了 智能 体 来 谈判 甚至 说 谎 。 


就 在 前 几 天 (截至 本 文 ) ， 在 2017 年 8 月 11 日 ，OpenAl 达到 了 另 一 个 令 人 难以 置信 的 里 
程 碑 ， 在 在 线 多 人 游戏 Dota 2 的 1v1 比赛 中 ， 击 败 了 世界 顶尖 的 职业 选手 。 
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在 YouTube 上 查看 T12017 的 完整 比赛 ， 由 Dendi (人 类 ) 对 战 OpenAl (机 器 ) 。 


我 们 的 日 常 技术 大 部 分 来 自 人 工 智能 。 在 下 次 去 台湾 旅行 期 间 ， 将 相机 对 准 菜单 ， 餐 厅 的 菜 
单 将 通过 Google 翻译 应 用 ， 魔 术 般 地 以 英文 出 现 。 


Chinese English Chinese tnglish 





谷歌 翻译 使 用 卷 积 神经 网 络 ， 实 时 完成 饮料 菜单 上 的 美文 翻译 。 
今天 ，Al 用 于 为 冶 症 患者 设计 人 循 证 治疗 计划 ， 立 即 分 析 医 学 测试 结果 ， 立 即 升 级 为 适当 的 专 
家 ， 并 为 药物 发 现 开 展 科 学 研究 。 


What if a scientist could remember every paper they have ever read and read every 
paper that had ever been written in medicine, biology and chemistry... 


..AND draw eureka moments from that knowledge - imagine the sheer scale and 
speed of the discoveries that could be made. 


BenevolentAl does this 100 times everyday 


伦敦 的 Benevolent Al (来 自 “ 关 于 我 们 "页面 的 截图 ，2017 年 8 月 ) 的 大 胆 公 告 。 


执法 部 门 使 用 视觉 识别 和 自然 语言 处 理 ， 来 处 理 来 自身 体 相 机 的 镜头 。 火 星 漫游 者 "好 琳 号 "其 
至 利用 人 工 拓 能 以 高 精确 度 上 自动 选择 值得 检验 的 土壤 和 岩石 样本 。 


在 日 党 生活 中 ， 在 传统 上 被 人 类 占领 的 角色 中 ， 机 器 越 来 越 第 见 。 如 果 下 一 次 你 给 酒店 前 台 
we 来 一 些 牙 彰 ， 然 后 出 现 了 一 个 小 型 家 政 服 务 机 器 人 人， 而 不 是 一 个 人 ， 扣 
的 不 要 惊讶 。 


在 本 系列 中 ， 我 们 将 探讨 这 些 技术 背后 的 核心 机 器 学 习 理 念 。 最 后 ， 你 应 该 能 够 在 概念 层面 
描述 它们 的 工作 原理 ， 并 为 自己 装配 工具 来 开始 构建 类 似 的 应 用 。 


语义 树 : 人 工 智 能 和 机 器 学 


一 点 建议 : 将 知识 视 为 一 种 语义 树 是 重要 的 - 确保 你 了 解 基 本 原则 ， 即 树干 和 大 的 树 
枝 ， 然 后 再 进入 叶子 /细节 ， 否 则 它们 没有 可 以 挂 着 的 地 方 。- Elon Musk，Reddit AMA 


WiFeYoraliat-wmi-t-]aallalemar-lauiilelt-)mlaecliirel-lare= 


ARTIFICIAL INTELLIGENCE 


Design an intelligent agent that perceives its environment and makes decisions to maximize chances of achieving its goal. 
Subfields: vision, robotics, machine learning, natural language processing, planning, ... 


MACHINE LEARNING 


Gives "computers the ability to learn without being explicitly programmed” (Arthur Samuel, 1959) 


UNSUPERVISED 
LEARNING 


Clustering, dimensionality 
reduction, recommendation 


SUPERVISED 
LEARNING 


Classification, regression 


REINFORCEMENT 
LEARNING 


Reward maximization 


Machine Learning for Humans @ 





机 器 学 习 是 人 工 智能 的 众多 子 领域 之 一 ， 有 关 一 种 方式 ， 让 计算 机 从 经 验 中 学 习 ， 来 提 
训 g 划 、 决 策 和 行动 能 力 。 


人 工 智 能 是 智能 体 的 研究 ， 它 可 以 感知 周围 世界 ， 制 定 计 划 ， 并 做 出 决策 以 实现 其 目标 。 其 
基础 包括 数学 ， 逮 辑 ， 哲 学 ， 概 率 ， 语 言 学 ， 神 经 科学 和 决策 理论 。 许 多 领域 都 属于 在 Al 下 
面 ， 如 计算 机 视觉 ， 机 器 人 ， 机 器 学 习 和 自然 语言 处 理 。 


机 器 学 习 是 人 工 知 能 的 一 个 子 领 域 。 它 的 目标 是 让 电脑 自己 学 习 。 机 器 的 学 习 算 法 使 其 能 够 
识别 观测 数据 中 的 规律 ， 构 建 解 释 世 界 的 模型 ， 并 且 在 没有 明确 的 预 编程 规则 和 模型 的 情况 
下 预测 事物 。 


Al 效应 : 什么 实际 上 被 认定 为 “人 工 智能 "9? 


认定 为 Al" 的 技术 的 准确 标准 有 点 模糊 ， 解 释 随 着 时 间 的 推移 而 变化 。Al 标签 倾向 于 描述 一 些 
机 器 ， 它 们 执行 传统 上 人 类 领域 中 的 任务 的 。 有 趣 的 是 ， 一 旦 电脑 弄 清 楚 如 何 做 这 些 任务 之 
一 ， 人 类 就 倾向 于 说 这 不 是 里 正 的 智慧 。 这 被 称 为 Al 效应 。 


例如 ， 当 IBM 的 Deep Blue 在 1997 年 击败 世界 象棋 冠军 Garry Kasparov 时 ， 人 们 抱 奶 说 它 
SE ENR SRAM AIK > Wy Bre hag” Bo E+ Pamela McCorduck % ia » “& HALF 
能 领域 历史 的 一 部 分 ,每 当 有 人 想 出 如 何 使 计算 机 做 某 事 时 - 玩 好 象 模 ， 解 决 简单 但 相对 非 正 
式 的 问题 - 就 有 批评 者 附和 ，“ 那 不 是 思考 ”(McCorduck ，2004) 。 


也 许 人 们 可 接受 的 “人 工 智能 "， 有 一 些 特 定 的 固有 的 难以 描述 的 东西 : 


“A| 是 还 没有 完成 的 任何 东西 。”- 道格拉斯 . 候 世 达 
计算 器 也 算 作 Al 吗 ? 了 也许 通过 一 些 解释 是 这 样 。 自 动 驾驶 又 如 何 ? 了 ”现在 是 的 。 在 将 


来 ， 也 许 不 是 。 你 的 又 新 又 酷 的 ， 可 以 自动 生成 流程 图 的 聊天 机 器 人 创业 公司 呢 ? 当 
然 ... 为 什么 不 事 呢 ? 


(ar 


强 AI 会 永远 改变 我 们 的 世界 ;为 了 了 解 怎 
颈 学 习 是 个 不 错 的 起 始 之 地 


上 述 技术 是 狭义 人 工 智能 (ANI) 的 例子 ， 可 以 有 效 地 执行 狭义 的 任务 。 


么 回 事 ， 机 


同时 ， 我 们 继续 推动 人 类 级 别 的 广义 人 工 智能 (AGI) 的 进步 ， 也 称 为 强人 工 知 能 。AGI 的 定 
义 是 一 种 人 工 智 能 ， 可 以 成 功 地 执行 人 类 可 以 做 出 的 任何 智力 任务 ， 包 括 在 不 确定 性 下 的 学 
习 ， 规 划 和 决策 ， 以 自然 语言 交流 ， 开 玩笑 ， 操 纵 人 类， 交易 股票 或 重新 编程 它 自己 。 


而 最 后 一 个 是 了 不 起 事情 。 一 旦 我 们 创建 了 一 个 可 以 改进 自身 的 人 工 智能 ， 它 将 解锁 一 个 循 
环 的 递归 自我 完善 ， 这 可 能 会 导致 一 些 未 知 的 时 间 段 内 的 智能 爆炸 ， 从 几 十 年 到 一 天 。 


超 智 能 机 器 定义 为 ， 能 够 超越 任何 人 的 所 有 智力 活动 的 机 器 。 由 于 机 器 的 设计 是 这 些 智 
力 活 动 之 一 ， 超 智能 机 器 可 以 设计 更 好 的 机 器 ; 那么 毫 无 疑问 ， 这 将 是 一 场 “ 智 能 爆炸 ”， 
人 的 智慧 将 远 远 落 后 。 因 此 ， 只 要 机 器 足够 温顺 ， 告 诉 我 们 如 何 控制 它 ， 第 一 台 起 智能 
机 器 是 人 们 需要 做 的 最 后 一 个 发 明 。 -1.J. Good, 1965 


你 可 能 听 说 过 这 个 点 被 称 为 奇 点 。 该 术语 取 自 出 现在 黑洞 中 心 的 重力 奇 点 ， 一 个 无 限 致密 的 
一 维 点 ， 在 那里 我 们 理解 的 物理 学 定律 开始 打破 。 





我 们 看 不 见 黑洞 的 事 象 地 平 的 另 一 边 发 生 的 事情 ， 因 为 没有 光线 可 以 逃脱 。 同 样 的 ， 在 
我 们 解 开 了 Al 的 递归 改进 能 力 之 后 ， 预 测 会 发 生 什 么 是 不 可 能 的 ， 就 像 故 意 设 计 人 类 的 
老鼠 可 能 无 法 预测 人 类 对 自己 的 世界 会 做 些 什 么 。 它 会 不 断 帮 助 他 们 得 到 更 多 的 奶 酷 ， 
像 它们 原本 的 打算 那样 ? (AA RA WIRED) 


人 类 未 来 研究 所 最 近 的 一 份 报告 ， 调 查 了 一 组 Al 研究 人 员 ， 关 于 AG| 的 时 间 线 ， 发 现 “研究 
人 员 认 为 ， 在 45 年 内 的 所 有 任务 中 ，Al 有 50% 的 机 会 超过 人 类 (Grace - ° 2017) 。 我 们 亲 
自 与 一 些 理智 和 合理 的 Al 实践 者 交谈 ， 他 们 预测 的 时 间 线 更 长 (上 限 是 “ 永 不 ”) ， 而 其 它 人 
的 时 间 线 极其 短 - 短 短 几 年 。 





图 片 来 自 Kurzweil 的 《 奇 点 临近 》，2005 年 出 版 。 现 在 ， 在 2017 年 ， 只 有 一 部 分 这 些 
海报 可 以 合理 地 留 在 墙 上 。 


超过 人 类 级 别 的 超级 人 工 智 能 (ASI) 的 出 现 ， 可 能 是 我 们 物种 发 生 的 最 好 或 最 坏 的 事情 之 
一 。 它 以 一 种 对 人 类 友好 的 方式 ， 承 载 着 规定 Al 想 要 什么 的 巨大 挑战 。 


虽然 不 可 能 说 未 来 是 什么 ， 但 有 一 件 事 是 肯定 的 : 2017 是 开始 了 解 机 器 如 何 思 考 的 好 时 机 。 
为 了 超越 空想 哲学 的 抽象 ， 并 智能 地 制定 我 们 关于 Al 的 路 线 图 和 政策 ， 我 们 必须 了 解 机 器 如 
何 看 待 世 界 的 细节 - 他 们 “ 想 要 ”什么 ， 他 们 的 潜在 偏差 和 失败 模式 ， 他 们 的 气质 怪 辛 - 就 像 我 
们 学 习 心 理学 和 神经 科学 ， 来 了 解 人 类 如 何 学习 ， 决 条 ， 行 动 和 感觉 。 


Al 的 复杂 ， 高 风险 的 问题 ， 需 要 我 们 在 未 来 几 年 的 细心 关注 。 我 们 有 责任 以 知情 和 有 意 
的 视角 来 思考 这 些 问题 。 


我 们 如 何 对 抗 Al 的 进一步 巩 国 系统 偏见 的 倾向 ， 它 们 在 现 有 数据 集中 显而易见 ? 我 们 应 
该 如 何 应 对 世界 上 最 强大 的 技术 人 员 的 ， 关 于 人 工 智 能 的 潜在 风险 和 好 处 的 根本 分 歧 ? 
什么 是 教授 Al 系统 的 行为 的 ， 最 有 和 希望 的 技术 方法 ?在 一 个 没有 工作 的 世界 中 ， 人 类 的 
目的 感 会 怎样 ? 


机 器 学 习 是 我 们 的 广义 人 工 智 能 之 旅 的 核心 ， 同 时 也 将 改变 每 个 行业 ， 对 日 常生 活 产 生 巨 大 
的 影响 。 这 就 是 我 们 认为 机 器 学 习 值 得 理解 的 原因 ， 至 少 在 概念 层面 - 我 们 将 这 个 系列 设计 为 
最 好 的 起 始 之 地 。 


如 何 阅读 这 个 系列 


你 不 一 定 需 要 阅读 系列 的 每 一 页 来 学 到 东西 。 这 里 有 三 个 如 何 完 成 的 建议 ， 具 体 取决 于 你 的 
兴趣 和 时 间 多 少 


e TH AA: 从 头 到 尾 阅 读 。 在 你 读 的 时 候 用 你 自己 的 话 概括 每 个 部 分 (参见 : 费 曼 技 
巧 ) ; 这 有 助 于 积极 阅读 和 更 强 的 记忆 存留 。 深 入 了 解 与 你 的 兴趣 或 工作 最 相关 的 领 
域 。 我 们 将 在 每 个 部 分 的 末尾 包含 深入 探索 的 资源 。 


© 专注 方式 : 直接 跳 到 你 最 感 兴趣 的 章节 ， 将 你 的 所 有 脑力 集中 在 那里 。 


© 80/20 方式 : 略 读 所 有 东西 一 遍 ， 对 一 些 有 趣 的 高 阶 概 念 做 一 些 注解 ， 然 后 到 此 为 止 。 


关于 作者 


et en 





好 的 ， 我 门 喝 完 这 杯 酒 的 时 候 ， 我 门 应 该 把 梯度 下 降 搞 定 。@ The Boozy Cow in 
Edinburgh 


Vishal 最 近 在 领导 创业 公司 的 增长 ， 这 是 一 个 利用 机 器 学 习 来 为 信用 定价 ， 借 贷 过 程 自 动 化 
和 获取 用 户 的 贷款 平台 。 他 花 时 间 思 考 创业 公司 ， 应 用 认 知 科学 ， 道 德 哲 学 和 人 工 智能 的 伦 
理学 。 


Samer 是 UCSD 的 计算 机 科学 和 工程 硕士 ， 以 及 Conigo Labs 的 联合 创始 人 。 在 毕业 之 前 ， 
他 创立 了 TableScribe， 这 是 中 小 型 企业 的 商业 智能 工具 ， 并 花 了 两 年 时 间 向 麦肯锡 的 100 强 
企业 提供 咨询 服务 。Samer 曾经 在 耶鲁 大 学 学 习 计 算 机 科学 与 伦理 学 ， 政 治学 和 经 济 学 。 


这 个 系列 大 部 分 是 在 英国 十 天 的 旅行 中 写 的 ， 火 车 ， 飞 机 ， 咖 啡 馆 ， 酒 吧 和 其 他 任何 地 方 ， 
我 们 都 可 以 找到 一 个 干燥 的 地 方 来 坐 。 我 们 的 目标 是 巩固 我 们 对 人 工 智 能 ， 机 器 学 习 的 理 
解 ， 以 及 它们 之 间 的 融合 方式 - 并 希望 在 此 过 程 中 创造 值得 分 享 的 东西 。 


现在 无 需 儿 ~ ~ 也 、 6 
需 多 说 ， 通 过 "2.1 : 监督 学 习 ”， 让 我 们 立即 ; 
2.1: 监督 学 习 ”， 让 我 们 立即 深入 机 器 学 习 吧 。 


原文 : Machine Learning for Humans, Part 2.1: Supervised Learning 
作者 : Vishal Maini 
译 者 : 飞龙 


协 仅 : CC BY-NC-SA 4.0 
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监督 学 习 的 两 大 任务 : 回归 和 分 类 。 线 性 回归 ， 损 失 函 数 和 梯度 下 降 


通过 在 数字 广告 上 花费 更 多 的 钱 ， 我 们 能 挣 多 少 钱 ?3 这 个 贷款 的 申请 人 是 否 能 偿还 贷款 ? 股 
市 明天 会 发 生 什 么 ? 
在 监督 学 习 的 问题 中 ， 我 们 以 一 个 数据 集 开 始 ， 它 包含 训练 样本 ， 每 个 样本 带 有 关联 的 正确 


标签 。 例 如 ， 学 习 分 类 手写 数字 的 时 候 ， 监 督学 习 算 法 接受 数 千 张 手写 体 数 字 的 图 片 ， 以 及 
标签 ， 它 们 包含 每 个 图 片 表示 的 正确 数字 。 算 法 会 学 习 图 像 和 关联 的 数值 的 关系 。 之 后 将 学 
到 的 关系 用 于 划分 全 新 的 图 片 〈 不 带 标签 ) ， 机 器 从 来 没有 见 过 它们 。 这 就 是 你 可 以 通过 使 
用 手机 拍 张 照 片 ， 来 存 入 支票 的 原因 。 


为 了 展示 监督 学 习 的 工作 原理 ， 让 我 们 看 一 个 问题 ， 根 据 某 人 完成 的 高 等 教育 的 年 数 ， 来 预 
测 年 收入 。 更 形式 化 来 说 ， 我 们 打算 构建 一 个 模型 ， 它 近似 描述 了 高 等 教育 年 数 x 和 对 应 年 
WAY 的 关系 ff。 


Y= F(X) + € 
x (输入 ) 为 高 等 教育 的 年 数 Y (输出 ) 为 年 收入 fF 为 描述 x 和 Y 关系 的 函数 
e (epsilon) 为 随机 误差 项 (可 正 可 负 ) ， 均 值 为 零 

KTE 


e 表示 模型 的 残余 误差 ， 它 是 你 的 算法 的 理论 极限 ， 由 于 你 尝试 解释 的 现象 中 存在 固有 
吕 声 。 例 如 ， 想 象 构建 一 个 模型 来 预测 抛 硬 币 的 结果 。 


此 外 ， 数 学 家 Paul Erd6s 将 孩子 们 称 为 e ， 因 为 在 微 积 分 中 (而 不 是 统计 学 ) ，e 代 
表 任意 小 的 正 数 值 。 很 恰当 吧 ? 


一 种 预测 收入 的 方式 ， 就 是 创建 一 个 基于 规则 的 严格 模型 ， 来 表示 收入 和 教育 如 何 相 关 。 例 
如 ， 我 估计 出 ， 高 等 教育 每 增加 一 年 ， 年 收入 增加 $5000。 


income = ($5,000 * years_of_education) + baseline_income 


这 个 方式 就 是 构建 一 个 解 的 示例 〈 而 不 是 学 习 一 个 解 ， 就 像 下 面 描述 的 线性 回归 方法 那 
He) ° 
通过 包含 一 些 规则 ， 关 于 学 位 类 型 、 工 作 年 数 、 学 校 的 层次 ， 以 及 其 它 ， 你 可 以 提出 一 个 更 
复杂 的 模型 。 例 如 ， “如 果 他 们 完成 了 学 士 或 更 高 的 学 位 ， 就 将 收入 估计 为 1.5 倍 ”。 


但 是 这 种 类 型 的 ， 明 确 的 基于 规则 的 规划 ， 对 于 复杂 数据 不 是 很 有 效 。 想 像 一 下 ， 党 试 设计 
一 个 图 像 分 类 器 算法 ， 它 由 if-then 语句 组 成 。 这 些 语句 描述 了 像素 亮度 的 组 合 ， 来 判断 它 
和 不 情人 口 六 
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监督 机 器 学 习 通 过 让 计算 机 为 你 工作 ， 来 解决 这 个 问题 。 通 过 识别 数据 中 的 规律 ， 机 器 能 够 
得 到 启发 。 这 个 和 人 类 学 习 最 大 的 差异 是 ， 机 器 学 习 运 行 在 计算 机 硬件 上 ， 并 且 可 以 通过 计 
算 机 科学 和 统计 学 的 视角 很 好 地 理解 ， 然 而 人 类 的 模式 识别 发 生 在 生物 大 脑 中 (不 过 完成 了 
相同 的 目标 ) 。 


在 监督 学 习 中 ， 机 疾 试 图 从 零 开始 学 习 收 入 和 教育 之 间 的 关系 ， 通 过 使 用 带 标签 的 训练 数据 
来 运行 算法 。 es 鸥 数 可 以 用 于 估计 人 们 的 收入 ， 其 中 收入 Y 是 未 知 的 ， 只 要 我 们 将 教育 
年 数 x 作为 输入 。 换 名 话说， 我 们 可 以 将 我 们 的 模型 用 于 不 带 标 签 的 测试 数据 来 估计 YY © 


监督 学 习 的 目标 是 ， 当 获得 x 已 知 Y 未 知 的 新 样本 时 ， 尽 可 能 准确 地 预测 xy 。 下 面 我 们 会 
探索 多 种 最 第 见 的 方法 。 


监督 学 习 的 两 个 任务 : 回归 和 分 类 


回归 : 预测 连续 数值 。 某 个 万 


Sh 
a 
OR 
= 
Ao 
Ws 
= 

A 


这 一 节 的 剩余 部 分 会 关注 回 昌 。2.2 节 中 我 们 会 深入 分 类 方法 。 


回归 : 预测 连续 值 


回归 预测 连续 的 目标 变量 vy 。 它 允许 你 估计 一 个 值 ， 例 如 房价 或 者 人 类 寿命 ， 基 于 输入 数 
据 x 。 
这 里 ， 目 标 变量 的 意思 是 我 们 所 关心 的 ， 用 于 预测 的 位 置 变量 。 连 续 的 意思 是 ， 在 Y 可 以 取 


mopman le et 
子 的 数量 是 个 3 连续 变量 。 


收入 的 预测 是 个 经 典 的 回归 问题 。 你 的 输入 数据 x 包含 所 有 数据 集中 的 个 体 的 相关 信息 ， 可 
以 用 于 预测 收入 ， 例 如 教育 年 数 、 工 作 年 数 、 职 位 、 或 者 邮政 编码 。 这 些 属性 叫做 特征 ， 它 
们 可 以 是 数值 (例如 工作 年 数 ) ， 或 者 分 类 (例如 职位 和 研究 领域 ) 。 


你 可 能 想 要 尽 可 能 多 的 ， 和 这 些 特征 相关 的 训练 观测 值 ， 来 定位 输出 Y ， 使 你 的 模型 可 以 学 
习 X 和 Y 之 间 的 关系 下 。 


数据 分 为 训练 集 和 测试 集 。 训 练 集 拥 有 标签 ， 所 以 你 的 模型 可 以 从 这 
习 。 测 试 集 不 带 标签 ， 也 就 是 ， 你 还 不 知道 你 尝试 预测 的 值 。 你 的 模 
的 情况 ， 以 便 它 在 测试 数据 上 表现 良好 ， 这 个 十 分 重要 。 


带 标签 的 样本 中 学 
可 以 推广 到 从 未 见 过 


此 
型 


回归 

Y = f(x) +e ， 其 中 Xx = (x1, x2... xn) 
训练 : 机 器 从 带 标 签 的 训练 数据 习 得 f 
测试 : 机 器 从 不 带 标 签 的 测试 数据 预测 y 


要 注意 ，X 可 以 是 个 张 量 ， 它 的 维度 a Ms Adel, = 
维 张 量 是 矩阵 (多 行 多 列 ) 。 你 也 可 以 拥有 三 、 四 、 五 其 至 更 高 维 的 张 量 (人 
量 拥有 行 、 列 和 深度 ) 。 为 了 回顾 这 些 术 语 ， 请 参考 线性 代数 回顾 的 前 几 页 。 


在 我 们 的 非常 简单 的 二 维 示例 中 ， 它 的 形式 是 csv 文件 ， 其 中 每 行 包 含 一 个 人 的 教育 水 平和 


收入 。 使 用 更 多 特征 来 添加 更 多 的 列 ， pe De 


Supervised Learning: Regression 
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所 以 我 们 如 何 解 决 这 些 问题 ? 


我 们 如 何 构 建 模 型 ， 在 现实 世界 中 做 出 更 准确 、 实 用 的 预测 ?我 们 可 以 通过 使 用 监督 学 习 算 
法 来 实现 。 


现在 让 我 们 进行 最 有 意思 的 部 分 : 了 解 算法 。 我 们 会 探索 几 种 方式 来 实现 回归 和 分 类 ， 并 且 
展示 机 器 学 习 概 念 中 的 关键 。 


线性 回归 (普通 最 小 二 乘 ) 


首先 ， 我 们 专注 于 使 用 线性 回归 解决 收入 预测 问题 ， 因 为 线性 模型 不 是 很 适合 图 像 识 别 任务 
(这 是 深度 学 习 的 领域 ,我 们 之 后 也 会 探索 ) 。 


我 们 拥有 数据 集 x ， 以 及 对 应 的 目标 值 Y 。 普 通 最 小 二 乘 (OLS) 的 目标 是 ， 习 得 一 个 线性 
模型 ， 如 果 我 们 得 到 了 一 个 未 见 过 的 x ， 我 们 可 以 用 它 来 预测 新 的 y ， 并 且 误 差 尽 可 能 小 。 
我 们 打算 基于 某 个 人 的 教育 年 数 ， 猜 测 它 的 收入 。 


X_train = [4, 5, 0, 2, .., 6] 高 等 教育 的 年 数 
Y_train = [80, 91.5, 42, 55, .., 100] # 对 应 的 年 收入 ， 单 位 为 千 美元 
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Years of post-secondary education 


线性 回归 是 个 参数 化 方法 ， 也 就 是 说 ， 它 需要 作出 x Fy 的 函数 形式 的 假设 (我 们 之 后 会 涉 
及 非 参 数 化 方法 的 示例 ) 。 我 们 的 模型 是 个 了 兄 数 ， 使 用 特定 的 x 预测 9 


d= 二 Do 二 Hi* 人 Te 

这 里 ， 我 们 做 出 了 一 个 明确 的 假设 ，x 和 Y 是 存在 线性 关系 的 。 也 就 是 说 ， 对 于 每 
个 x 中 的 单位 增长 ，Y 的 增长 (或 下 降 ) 不 变 。 

Bo 是 纵 截 距 ， pi 是 直线 斜 认 ， 也 就 是 教育 每 增加 一 年 ， 收 入 增长 〈 或 者 下 降 ) 多 少 。 

我 们 的 目标 是 ， 习 得 模型 参数 (这 里 是 po 和 pr ) ， 使 模型 预测 中 的 误差 最 小 。 

为 了 寻找 最 佳 的 参数 : 

1. 定义 一 个 成 本 函数 ， 或 者 损失 函数 ， 它 度量 了 我 们 的 模型 的 预测 有 多 么 准确 。 

2. 寻找 使 损失 最 小 的 参数 ， 也 就 是 ， 使 我 们 的 模型 尽 可 能 准确 。 


以 图 形 的 方式 ， 在 二 维 中 ， 它 会 产生 一 条 最 佳 拟 合 直线 。 在 三 维 中 ， 我 们 可 以 画 一 个 平面 ， 
所 以 高 维 中 就 是 超 平面 。 


维度 的 注解 : 为 了 简便 ， 我 们 的 示例 是 二 维 的 ， 但 是 你 的 模型 通常 拥有 更 多 特征 ( x ) 
和 系数 ( B ) 。 例 如 ， 添 加 更 多 相关 变量 ， 来 提升 模型 预测 的 准确 性 。 相 同 的 原理 可 以 
推广 到 高 维 ， 虽 然 超过 三 维 的 东西 很 难 可 视 化 。 
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RFE > RNMREPAKBUER ( y a 
pe 并 惩罚 较 大 的 差 ， 之 后 将 它们 相 加 并 取 平 均 。 这 度量 了 我 们 的 数据 有 
么 接近 直线 。 


at 
7 2*n 


n 为 观察 值 的 的 数量 。 使 用 2 * n 来 代替 n ， 在 求 导 来 使 损失 最 小 时 ， 使 我 们 的 式 子 
更 加 整洁 ， 虽 然 一 些 统计 学 家 认为 这 是 这 种 荡 渎 。 当 你 开始 对 这 种 东西 有 意见 的 时 候 ， 
你 就 太 偏执 了 。 


对 于 一 个 像 这 样 的 简单 问题 ， 我 们 可 以 使 用 微 积 分 计算 闭 式 解 ， 来 寻找 最 住 的 B 参数 ， 它 使 
人 最 小 。 但 是 随 着 成 本 函数 的 复杂 性 的 增长 ， 使 用 微 积分 寻找 闭 式 解 就 不 太 可 
能 这 就 推动 了 一 种 迭代 方式 ， 叫 做 梯度 下 降 ， 它 允许 我 们 使 复杂 的 损失 函数 最 小 。 


4 。 可 7 米 
梯度 下 降 : 习 得 参数 
蒙 住 眼睛 ， 向 下 走 一 步 。 当 你 无 路 可 走 只 能 向 上 的 时 候 ， 你 就 到 了 底部 。 


梯度 下 降 会 一 遍 一 遍地 出 现 ， 特 别 是 在 神经 网 络 中 。 机 器 学 习 库 ， 例 如 scikit-learn 和 
TensorFlow 会 在 背后 的 任何 地 方 使 用 它 ， 所 以 它 值得 了 解 细 节 。 


梯度 下 降 的 目标 是 寻找 我 们 模型 的 损失 闷 数 的 最 小 值 ， 通 过 在 迭代 中 得 到 它 的 越 来 越 好 的 近 
似 值 。 


想象 你 自己 壹 上 了 上 晴 穿 过 一 个 山谷 。 你 的 目标 是 寻找 山谷 的 底部 。 你 要 怎么 做 呢 ? 


一 个 可 行 的 办 法 是 ， 触 摸 你 周围 的 地 面 ， 向 地 面 下 降 最 快 的 方向 移动 。 走 出 一 步 ， 之 后 不 断 
重复 相同 的 过 程 ， 直 到 地 面 变 成 平 的 。 之 后 你 就 知道 了 你 到 达 了 山谷 的 底部 。 如 果 你 在 所 在 
位 置 向 任何 方向 移动 ， 你 最 终 都 会 位 于 相同 的 高 度 ， 或 者 更 高 。 


回 到 数学 ， 地 面 变 成 了 损失 函数 ， 山 谷底 部 的 高 度 变 成 了 函数 的 最 小 值 。 
让 我 们 看 一 看 回归 中 的 损失 闷 数 : 


(Biri Bo) — yi))? 


Cost = 
«en 


我 们 看 到 这 个 实际 上 是 两 个 变量 的 函数 : po 和 B1 。 所 有 其 余 变量 都 是 已 确定 的 ， 
为 x ，Y 和 n 都 在 训练 过 程 中 提供 了 。 我 们 打算 尝试 使 这 个 函数 最 小 。 
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这 个 函数 是 f(B9o,B1)=z 。 为 了 开始 梯度 下 降 ， 你 需要 对 参数 po 和 pr 做 出 一 些 猜 测 ， 它 们 
使 函数 最 小 。 


下 面 ， 你 寻找 损失 函数 对 每 个 B 参数 的 偏 导 数 [dz/dBo, dz/dB1] 。 偏 导数 表示 ， 如 果 你 
为 Be 或 者 Bl 增加 一 个 很 小 的 值 ， 总 损失 增加 或 减少 多 少 。 


换 一 种 方式 。 假 设 教 育 年 数 〈 Be ) 为 零 会 增加 模型 的 损失 (也 就 是 不 准确 度 ) ， 这 会 将 你 的 
年 收入 的 估计 和 值 增加 乡 少 ? 了 你 需要 向 相反 方向 移动 ， 以 便 你 最 终 向 下 走 并 使 损失 最 小 。 


与 之 类 似 ， 如 果 你 增加 “教育 年 数 的 每 个 增 量 会 影响 多 少 收 入 ”的 估计 量 ( pt ) ， 这 会 将 损失 

( z ) 增加 多 少 ? 如 果 偏 导数 dz/B1 EN BR? ABA pr 的 增加 是 极 好 的 ， 因 为 它 会 降低 总 
损失 。 如 果 它 是 个 正 数 ， 你 需要 降低 p1 。 如 果 是 零 ， 不 要 修改 B1 ， 因 为 这 表示 你 已 经 到 达 
最 优 了 。 


持续 做 这 件 事 ， 直 到 你 到 达 了 底部 ， 也 就 是 ， 算 法 收 信 ， 损 失 到 达 最 小 。 存 在 大 量 技巧 和 例 
外 情况 ， 它 们 超出 了 这 一 章 的 范围 ， 但 是 通常 来 说 ， 这 就 是 你 为 你 的 参数 化 模型 寻找 最 优 和 参 
数 的 方式 。 


过 拟 合 :“Sherlock， 你 对 刚才 发 生 的 事情 的 解释 ， 太 特定 于 这 个 环境 了 。 
正则 化 :“ 不 要 把 事物 过 度 复 杂 化 ，Sherlock。 我 会 项 打 你 的 每 个 额外 的 单词 。” 
ABBR (入 ) : 这 里 就 是 我 敲打 你 的 每 个 额外 的 单词 时 的 力量 。 


机 器 学 习 的 一 个 常见 问题 就 是 过 拟 合 : 习 得 一 个 函 ee a 
据 ， 但 是 不 能 很 好 地 推广 到 未 见 过 的 测试 数据 。 过 拟 合 在 模型 从 训练 数据 过 度 学 ; 
它 开始 选取 一 些 个 性 ， 它 们 不 是 现实 世界 中 的 典型 规律 。 当 你 使 你 的 模型 变 得 复杂 时 ， 这 就 
是 个 问题 了 。 拟 合 不 足 是 个 相关 的 问题 ， 其 中 你 的 模型 不 够 复杂 ， 不 能 捕获 数据 的 隐 含 趋 
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偏差 和 方差 的 权衡 
偏差 是 误差 总 数 ， 由 使 用 简化 的 模型 来 近似 盟 实 世界 的 情况 引入 。 


差 是 你 的 模型 的 测试 误差 变化 多 少 ， 基 于 训练 数据 的 变化 。 它 反映 了 模型 对 训练 数据 
集 的 个 性 的 敏感 度 。 


随 首 模型 复杂 度 的 增长 ， 它 变 得 更 加 摆动 《灵活 ) ， 它 的 偏差 下 降 释 训 练 数据 有 
7 ， 但 是 方差 增加 (也 更 难 推广 ) 。 最 终 ， 为 了 得 到 良好 的 模型 ， 你 需要 低 偏 关 和 低 
差 的 模型 。 





Size Size | size | 
Ao + Ox tn 十 Ox 十 Dr Ao 十 a C+ DT o4 fax? + DT 
High bias “Just right” High variance 
(underfit) (overfit) 


来 源 : Coursera 的 机 器 学 习 课 程 ， 由 吴 恩 达 讲 授 


要 记 住 ， 我 们 关心 的 唯一 的 事情 就 是 ， 模 型 在 测试 数据 上 如 何 表 现 。 你 打算 在 标记 邮件 之 
前 ， 预 测 哪个 邮件 会 标记 为 垃圾 ， 而 不 仅仅 是 构建 一 个 模型 ， 它 可 以 以 100% 准确 度 ， 重 新 
分 类 最 开始 用 于 构建 自身 的 邮件 。 马 后 炮 是 20/20， 站 正 的 问题 是 学 到 的 经 验 是 否 在 未 来 有 所 
去 
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边 的 模型 对 于 训练 数据 是 零 损失 的 ， Ele Aa ano ols Bee 。 但 是 这 个 经 验 不 能 推 
。 对 于 解释 不 在 线 上 的 数据 点 来 说 ， 这 是 个 灾难 性 的 任务 。 


两 种 避免 过 拟 合 的 方法 : 


1. 使 用 更 多 训练 数据 。 你 拥有 更 多 ， 通 过 从 任意 单一 的 训练 样本 大 量 学 习 ， 就 更 难过 拟 合 
数据 。 


2. akan 化 。 在 损失 有 函数 里 添加 一 个 惩 因 ， 来 构建 一 个 模型 ， 避 免 为 任意 一 个 特征 分 配 
过 多 的 解释 性 权重 ， 或 者 允许 考虑 过 多 特征 。 


n 1 
Cost = D1 (Bixi + Bo) — yi)? 4 AS B? 


2*n 


上 面 的 和 式 的 第 一 部 分 是 正常 的 损失 函数 。 第 二 部 分 就 是 正则 项 ， 为 较 大 的 B AWE 
罚 ， 它 将 过 大 的 解释 性 权重 给 Ma 。 同 时 使 用 这 两 个 元 系 ， 成 本 函数 现在 平衡 
了 两 个 优先 级 : 解释 训练 数据 ， 并 防止 解释 过 于 特定 。 


损失 函数 中 ， 正 则 项 的 lambda 系数 是 个 超 参 数 : 你 的 模型 的 通用 设置 ， 可 以 增加 或 者 减少 
(也 就 是 调整 ) ， 以 便 改 进 表 现 。 较 局 的 lambda 值 会 更 严厉 地 惩 凡 较 大 的 B 参数 ， 它 们 可 
能 导致 过 拟 合 。 为 了 决定 lambda 的 最 佳 值 ， 你 可 以 使 用 叫做 交 又 验证 的 方法 ， 它 涉及 在 训练 
过 程 中 ， 保 留 一 部 分 训练 数据 ， 之 后 观察 ， 模 型 对 保留 部 分 的 解释 有 多 好 。 我 们 会 深入 了 解 
1G, 
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这 里 是 我 们 在 这 一 节 中 涉及 到 的 东西 : 


一 


AL ae Aen eee 的 训练 数据 中 学 习 ， 而 不 需要 显 式 编程 。 
e 监督 学 习 的 任务 : 回归 和 分 类 。 
© 线性 回归 ， 简单 而 实用 的 参数 化 算法 。 

© 使 用 梯度 下 降 习 得 参数 。 

e 过 拟 合 和 正则 化 


一 


下 一 节 “2.2 节 : 监督 机 器 学 习 由 中 ， 我 们 会 讨论 分 类 的 两 个 基本 方法 : 对 数 几率 回归 (LR) 
和 支持 向 量 机 (SVM) 。 


练习 材料 和 扩展 阅读 


2.1a 线性 回归 


对 于 线性 回归 的 更 彻底 的 讲授 ， 阅 读 《An Introduction to Statistical Learning》 的 1~3 章 。 这 
本 书 可 以 免费 在 线 阅 读 ， 并 且 是 用 于 使 用 配套 练习 理解 机 器 学 习 概 念 的 优秀 资源 。 
对 于 更 多 练习 : 


© 玩 转 波士顿 房价 数据 集 。 你 可 以 使 用 带 有 漂亮 GUI 的 软件 ， 例 如 Minitab 和 Excel， 或 者 
使 用 Python 或 者 民用 策 办 法 来 完成 它 。 
。 亲自 尝试 Kaggle 挑战 ， 例 如 房价 预测 ， 并 在 自己 尝试 之 后 ， 看 看 其 他 人 如 何 解决 问题 。 


2.1b 实现 梯度 下 降 


为 了 在 Python 中 实际 实现 榜 度 下 降 ， 查 阅 这 饥 苑 程 。 然 后 ， 这 里 是 相同 概念 的 更 加 数学 化 的 
严格 描述 。 

在 实战 中 ， 你 很 少 需要 从 零 开 始 实现 梯度 下 降 ， 但 是 理解 它 背 后 的 工作 原理 ， 会 让 你 更 有 效 
地 使 用 它 ， 并 且 在 出 现 问题 时 理解 其 原因 。 


2.2 es Il 


原文 : Machine Learning for Humans, Part 2.1: Supervised Learning 
作者 : Vishal Maini 

A: RB 

协 仅 : CC BY-NC-SA 4.0 


12 ABLE 2 (LR) 和 支持 向 量 机 (SVM) 的 分 类 。 


-i> A 入 大 
分 类 类 : 了 测 | 标 分 
这 个 邮件 是 不 是 垃圾 邮件 ?贷款 者 能 否 偿 还 它们 的 贷款 ?用 户 是 否 会 点 击 广 告 ?你 的 
Fackbook 照片 中 那个 人 是 谁 ? 


分 类 预测 离散 的 目标 标签 Y 。 分 类 是 一 种 问题 ， 将 新 的 观测 值 分 配给 它们 最 有 可 能 属于 的 
类 ， 基 于 从 带 标签 的 训练 集中 构建 的 模型 。 


你 的 分 类 的 准确 性 取决 于 所 选 的 算法 的 有 效 性 ， 你 应 用 它 的 方式 ， 以 及 你 有 多 少 有 用 的 训练 
数据 ° 


Supervised Learning: Classification 


training set 


Machine Learning for Humans @ @ 





xt IL (logistic) 回归 是 个 分 类 方法 : 模型 输出 目标 变量 Y 属于 茶 个 特定 类 的 概率 © 


虽然 对 数 几 座 回 归 通 第 用 其 中 只 存在 两 个 类 ， ， 分 类 可 以 拥有 任意 数量 
的 类 (例如 ， 为 手写 数字 分 配 0~9 的 标签 ， 或 者 使 用 人 脸 识 别 来 检测 Fackbook 图 片 中 是 哪 
个 朋友 ) 。 


我 可 以 使 用 普通 最 小 二 乘 嘛 ? 


不 能 。 如 果 你 在 大 量 样本 上 训练 线性 回归 模型 ， 其 中 Y so 或 者 1 ， 你 最 后 可 能 预测 出 一 些 
小 于 0 或 者 大 于 1 的 概率 ， 这 涡 无 意义 。 反 之 ， 我 们 使 用 对 数 几率 回归 楼 型 (或 者 对 率 
(logit) 模型 ) ， 它 为 分 配 * Y 属于 某 个 特定 类 "的 概率 而 设计 ， 范 围 是 0%~100% 。 


数学 原理 是 什么 ? 


注意 : 这 一 节 中 的 数学 很 有 意思 ， 但 是 更 加 技术 化 。 如 果 你 对 高 阶 的 高 年 不 感 兴趣 ， 请 尽管 
跳 过 它 。 


对 举 模 型 是 个 线性 回归 的 改良 ， 通 过 应 用 sigmoid 函数 ， 确 保 输出 0 和 1 之 间 的 概 尘 。 如 果 
把 它 画 出 来 ， 它 就 像 S 型 的 曲线 ， 稍 后 可 以 看 到 。 


S(z2) = ——-. 
(9) = Te 
sigmoid 部 数 ， 它 将 值 压缩 到 0 和 1 之 间 。 


回忆 我 们 的 简单 线性 回归 模型 的 原始 形式 ， 我 们 现在 叫 它 g(x) ， 因 为 我 们 打算 在 复合 函数 中 
使 用 它 。 


QQX) = So+ fixrt+e 


现在 ， 为 了 解决 模型 输出 小 于 0 或 者 大 于 1 的 问题 ， 我 们 打算 定义 一 个 新 的 函数 F(g(x)) ， 
它 将 现行 回归 的 输出 压缩 到 [0,1] 区 间 ， 来 转换 g(x) 。 你 可 以 想到 一 个 能 这 样 做 的 函数 吗 ? 


你 想到 了 sigmoid 函数 吗 ? 太 棒 了 ， 这 就 对 了 ! 


所 以 我 们 将 g(x) 插入 sigmoid 函数 中 ， 得 到 了 原始 函数 的 一 个 函数 (对 ， 事 情 高 阶 
JT) ， 它 输出 0 和 1 之 间 的 概率 。 


| 十 eC — (Bo 二 D1 a xr) 


aE? RUE ATH VAR AR T AF RR” AYR : P(Y=1) 。 


这 里 我 们 分 离 了 p ， 它 是 Y=1 的 概 举 ， 在 等 式 左边 。 如 果 我 们 打算 求解 等 式 右 边 的 ， 非 常 整 
洁 的 BO + Bix +e ? acu. Gy Fe AP AR RT] 习作 os beta 参数 ， 我 们 会 得 到 对 数 几 率 比 
值 ， 简 称 对 率 ， 它 在 左边 。 这 就 是 “对 率 模 型 "的 由 来 。 


(7) = Bo + Bie + 


It Fe UE HOSEA AR EA p/(1-p) 的 自然 对 数 ， 它 会 出 现在 我 们 每 天 的 对 话 中 。 
在 这 一 季 的 “权力 的 游戏 "中 ， 你 认为 小 恶魔 挂 掉 的 几率 有 多 大 ? 
嗯 ... 挂 掉 的 可 能 性 是 不 挂 掉 的 两 倍 。 几 率 是 2 比 1。 的 确 ， 他 太 重 要 ， 不 会 被 杀 ， 但 是 我 
们 都 看 到 了 他 们 对 Ned Stark 做 的 事情 .… 


<— IS HE GONNA DIE? 


[ols Prete [elt | 
In[p/(1-p)] = BO + Bix +e : ™¥§ p= P(Tyrion dies) = 2/3 


1-p = P(Tyrion doesn't die) = 1/3 


odds ratio: p/(1-p) = 2.0 
_ “He's gonna die. 2-to-1 odds” 


log-odds ratio: In[p/(1-p)] = 0.693 
“He's gonna die. .693 log-odds” 
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要 注意 在 对 率 模 型 中 ， B1 表示 当 x 变化 时 ， 对 率 的 变化 比例 。 换 印 话 说 ， 它 是 对 率 的 
BE > FER PLA AH 


对 率 可 能 有 点 不 直观 ， 但 是 值得 理解 ， 因 为 当 你 解释 执行 分 类 任务 的 神经 网 络 的 输出 时 ， 它 
会 再 次 出 现 。 


使 用 对 率 回 归 模 型 的 输出 来 做 决策 


对 举 回 归 模 型 的 输出 ， 就 像 S 型 曲线 ， 基 于 x 的 值 展示 了 p(Y=1) 。 


Probability of passing exam versus hours of studying 


¥ 二 


Probability of passing fam 


中 | ,pe ee | 


Hours studying 


为 了 预测 Y HA? AKRAM > ARAB? RRCIAT > VURHoRER (为 正 的 
结果 ) HAST SAY A (不 是 ) 。 例 如 ， 如 果 模 型 认为 ， 邮 件 是 垃圾 邮件 
的 概 洽 高 于 70%， 就 将 其 标 为 垃圾 。 否 则 就 不 是 垃圾 。 


， 你 对 


这 个 阅 值 取决 于 你 对 假 阳 性 ( 误 报 ) 和 假 阴 性 〈 漏 报 ) 的 容忍 度 。 如 
尔 的 测试 来 确 


假 阴 性 有 极 低 的 容忍 度 ， 因 为 如 果 病 人 有 极 小 的 几率 得 癌症 
认 。 所 以 你 需要 为 正 向 结果 设置 一 个 很 低 的 阅 值 。 


: 
3a 
ie 关 
ii 
> 


另 一 方面 ， 在 欺诈 性 贷款 申请 的 例子 中 ， 假 阳性 的 容忍 度 更 局 ， 也 别 是 对 于 小 额 货款， 因为 
进一步 的 审查 开销 很 大 ， 并 且 小 额 贫 款 不 值得 额外 的 操作 成 本 ， 以 及 对 于 非 欺 骗 性 的 申请 者 
来 说 是 个 障碍 ， 它 们 正在 等 待 进一步 的 处 理 。 


对 数 几 率 回 归 的 最 小 损失 


就 像 线性 回归 的 例子 那样 ， 我 们 使 用 梯度 下 降 来 习 得 使 损失 最 小 的 beta 参数 。 


\ 


SBE APs MA RKRERENRS? SARSRE 9 时 ， 你 有 多 么 经 第 将 其 预测 为 1， 
或 者 反 过 来 。 下 面 是 正则 化 的 成 本 函数 ， 就 像 我 们 对 线性 回归 所 做 的 那样 。 
Tm 
y*log(he(x*)) + (1 — vy)log(l — ha(a 
most — Li viloglhs(a')) + (= ylog( ay, 92 


2x nN 


en 不 要 惊慌 。 将 其 拆 成 小 部 分 ， 并 从 概念 上 思考 每 个 部 分 都 是 什 
。 之 后 就 能 理解 了 。 


第 一 个 部 分 是 数据 损失 ， 也 就 是 ， 模 型 预测 值 和 实际 值 之 间 有 多 少 差异 。 第 二 个 部 分 就 是 正 
则 损失 ， 也 就 是 ， 我 们 以 什么 程度 ， 惩 罚 模 型 的 较 大 参数 ， 它 过 于 看 重 特定 的 特征 (要 记 
得 ， 这 可 以 阻止 过 拟 合 ) © 


我 们 使 用 低 度 下 降 ， 使 损失 有 函数 最 小 ， 就 是 像 上 面 这 样 。 我 们 构建 了 一 个 对 数 几 座 回 归 模 
型 ， 来 尽 可 能 准确 地 预测 分 类 。 


支持 向 量 机 


我 们 再 次 位 于 一 个 充满 弹 球 的 房间 里 。 为 什么 我 们 总 是 在 充满 弹 球 的 房间 里 呢 ? 我 可 以 
发 拆 我 已 经 把 它们 丢掉 了 。 


SVM 是 我 们 涉及 的 最 后 一 个 参数 化 模型 。 它 通常 与 对 兴 回 归 解 决 相同 的 问题 ， 二 元 分 类 ， 并 
产生 相似 的 效果 。 它 值得 理解 ， 因 为 算法 本 质 上 是 由 几何 驱动 的 ， 并 不 是 由 概率 思维 驱动 
的 。 


SVM 可 解决 的 一 些 问 题 示例 : 


e kA EMH? 
e@ 这 个 评论 是 正面 还 是 负面 的 ? 
e 二 维 图 片上 的 点 是 红色 还 是 蓝 色 ? 


我 们 使 用 第 三 个 例子 ， 来 展示 SVM 的 工作 方式 。 像 这 样 的 问题 叫做 玩具 问题 ， 因 为 它们 不 是 
卜 实 的 。 但 是 没有 东西 是 丨 实 的 ， 所 以 也 没关系 。 





这 个 例子 中 ， 我 们 的 二 维 空 间 中 有 一 些 点 ， 它 们 是 红色 或 者 蓝 色 的 ， 并 且 我 们 打算 将 二 者 干 
净 地 分 开 。 
训练 集 画 在 了 上 面 的 图 片 中 。 我 们 打算 在 这 个 平面 上 划分 新 的 未 分 类 的 点 。 为 了 实现 它 


SVM 使 用 分 隔 直 线 (在 高 维 里 面 是 个 乡 维 的 超 平面 ) ， 将 空间 分 成 红色 区 域 和 蓝 色 区 域 。 你 
可 以 想象 ， 分 隔 直 线 在 上 面 的 图 里 面 是 什么 样 。 


具体 一 些 ， 我 们 如 何 选取 画 这 条 线 的 位 置 ? 


下 面 是 这 条 直线 的 两 个 示例 : 


这 些 图 表 使 用 MicrosoftPaint 制作 ， 在 不 可 思议 的 32 年 之 后 ， 它 在 几 个 星期 之 前 废弃 
J ° R.ILP Paint :( 





我 布 望 你 拥有 一 种 直觉 ， 觉 得 第 一 条 线 更 好 。 直 线 到 每 一 边 的 最 近 的 点 的 距离 叫做 间距 ， 而 
SVM 尝试 使 间距 最 大 。 你 可 以 将 其 看 做 安全 空间 : 空间 越 大 ， 噶 杂 的 点 就 越 不 可 能 被 错误 分 


基于 这 个 简单 的 解释 ， 一 个 巨大 的 问题 来 了 。 
(1) 背后 的 数学 原理 是 什么 ? 


我 们 打算 寻找 最 优 超 平 面 (在 我 们 的 二 维 示 例 中 是 直线 ) 。 这 个 超 平面 需要 (1) 干净 地 分 隔 
数据 ， 将 蓝 色 的 点 分 到 一 边 ， 红 色 的 点 分 到 另 一 边 ， 以 及 〈2) 使 间距 最 大 。 这 是 个 最 优化 问 
题 。 按 照 (2) 的 需求 使 间距 最 大 的 时 候 ， 解 需要 遵循 约束 (1) 。 


求解 这 个 问题 的 人 类 版 本 ， 就 是 拿 一 个 尺子 ， 党 试 不 同 的 直线 来 分 隔 所 有 点 ， 直 到 你 得 到 了 
使 间距 最 大 的 那 条 。 


人 们 发 现 ， 存 在 求解 这 个 最 大 化 的 数学 方式 ， 但 是 它 超出 了 我 们 的 范围 。 为 了 进一步 解释 
它 ， 这 里 是 个 视频 讲义 ， 使 用 拉 格 朗 日 优化 展示 了 它 的 工作 原理 。 

最 后 求解 的 超 平面 的 定义 ， 有 关 它 相对 于 特定 x_i 的 位 置 ， 它 们 就 叫做 支持 向 量 ， 并 且 它 
] 通 常 是 最 接近 超 平面 的 点 。 


(2) 如 果 你 不 能 干净 地 分 隔 数据 ， 会 发 生 什 么 ? 
处 理 这 个 问题 有 两 个 方式 。 
2.1 软 化“ 分隔" 的 定义 


我 们 允许 一 些 错误 ， 也 就 是 我 们 允许 红色 区 域 里 面 有 一 些 蓝 色 点 ， 或 者 蓝 色 区 域 里 有 一 些 红 
色 点 。 我 们 向 损失 有 函数 中 。 为 错误 分 类 的 样本 添加 成 本 Cc 来 实现 。 基 本 上 我 们 说 ， 错 误 分 类 
是 可 以 接 变 的 ， 只 是 会 产生 一 些 成 本 。 


2.2 将 数据 放 到 高 维 


我 们 可 以 创建 非 线 性 的 分 类 器 ， 通 过 增加 维 数 ， 也 就 是 ， 包 含 xA2 > x^3 9 HE 
是 cos(x) ， 以 及 其 它 。 突 然 ， 你 就 有 了 一 个 边界 ， 当 我 们 将 其 带 回 低 维 表示 时 ， 它 看 起 来 有 
些 弯曲 。 


本 质 上 ， 这 就 类 似 红 的 和 蓝 sauna mae > 它们 不 能 条 直线 分 隔 。 但 是 如 果 你 人 
所 有 红色 的 弹 球 离开 地 面 ， 像 右 图 这 样 ， 你 就 能 画 一 个 平面 来 分 wen o abana 
地 面 ， 就 知道 了 蓝 色 和 红色 的 边 


Data projected to R^ 人 2 (nonseparable) 


1:5 


Data in R*3 (separable) 


Y Label 
jeqe] Z 





X Label 





X Label 


二 维 空 间 RA2 中 的 非 线 性 可 分 的 数据 集 ， 以 及 映射 到 高 维 的 相同 数据 集 ， 第 三 个 维度 
是 xA2+yA2 (来 源 : http:/Awww.eric-kim.net/eric-kim-net/posts/1/kernel_trick.html ) 


Data projected to R^ 人 2 (hyperplane projection shown) 


Data in R*3 (separable w/ hyperplane) 


laqe1Z 
Y Label 





0.0 0.5 
X Label 





X Label 


决策 边界 展示 为 绿色 ， 左 边 是 三 维 空间 ， 右 边 是 二 维 空间 。 与 上 一 张 来 源 相 同 。 


总 之 ，SVM 用 于 二 元 分 类 。 它 们 尝试 寻找 一 个 平面 ， 和 干净 地 分 隔 两 个 类 。 如 果 这 不 可 能 ， 我 
们 可 以 软化 “分 隔 " 的 定义 ， 或 者 我 们 把 数据 放 到 高 维 ， 以 便 我 们 可 以 干净 地 分 隔 数 据 。 
好 的 

一 节 中 我 们 涉及 了 : 

。 监督 学 习 的 分 类 任务 

© 两 种 基础 的 分 类 方法 : 对 数 几 率 回 内 (LR) 和 支持 向 量 机 (SVM) 

e 第 见 概念 : sigmoid BA > PHILA (MF) ， 以 及 假 阳性 〈 误 报 ) 和 假 阴性 〈 漏 报 ) 
在 "2.3 : 监督 学 习 上 "中 ， 我 们 会 深入 非 参 数 化 监督 学 习 ， 其 中 算法 背后 的 概念 都 非常 直观 ， 


并 且 对 于 特定 类 型 的 问题 ， 表 现 都 很 优秀 ee ae 


练习 材料 和 扩展 阅读 


2.2a 对 数 几 率 回 归 


Data School 拥有 一 个 对 数 几 座 回 归 的 非常 棒 的 深入 指南 。 我 们 也 继续 向 你 推荐 《An 
Introduction to Statistical Learning) ° S#JL#4 27% LAs » | hike 量 机 请 见 第 九 章 。 


为 了 解释 对 数 几 率 回 归 ， 我 们 推荐 你 处 理 这 个 问题 集 。 你 需要 注册 站 点 来 完成 它 。 很 不 幸 ， 


2.2b 站 入 SVM 


为 了 深入 SVM 背后 的 数学 ， 在 MIT 6.034 : 人 工 智能 课程 中 观看 Patrick Winston 教授 的 讲 
义 ， 并 查看 过 个 教程 来 完成 Python 实现 。 
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原文 : Machine Learning for Humans, Part 2.3: Supervised Learning III 
作者 : Vishal Maini 

A: RB 

协 仅 : CC BY-NC-SA 4.0 


非 参 数 化 模型 : KNN RRA APM LARK ° ELS R LISTE s BHAA WA KARA © 


FEBRFAS 


事情 变 得 有 点 ... 扭 曲 了 。 


我 们 目 pe in ， 线性 回归 ， 对 举 回 归 和 SVM ， 它 们 的 模型 形式 是 预定 义 的 。 与 之 
sa ， 非 参数 器 事先 没有 特定 的 模型 结构 。 在 训练 模型 之 前 ， 我 们 不 会 推测 我 们 尝试 习 
oprah ele 反之 ， 模 型 结构 纯粹 由 数据 定义 。 


这 些 模型 对 于 训练 数据 的 形状 更 加 灵活 ， 但 是 有 时 会 有 可 解释 性 的 代价 。 不 久 你 就 会 更 理解 
它 。 让 我 们 继续 吧 。 


Ww 、 
近邻 (KNN) 
你 是 你 的 和 最 亲 考 的 K 个 朋友 的 均值 。 


KNN 看 起 来 图 样 图 森 破 ， 不 像 是 机 器 学 习 算 法 。 它 的 思路 是 ， 通 过 寻找 K 个 最 近 的 数据 点 的 
标签 ， 来 标记 测试 数据 点 x 。 


看 一 看 下 面 的 图 像 。 让 我 们 假设 ， 你 想 知 道 ， 迷 之 绿色 圆圈 是 红色 三 角 还 是 蓝 色 方块 。 你 怎 
么 做 呢 ? 


你 可 以 尝试 提出 一 个 迷 之 方程 ， 它 查看 绿色 圆圈 在 坐标 平面 的 哪里 ， 并 作出 相应 的 预测 。 或 
者 ， 你 可 以 仅仅 查看 三 个 最 近 的 邻居 ， 并 猜测 绿色 圆圈 可 能 是 个 红色 三 角 。 你 也 可 以 进一步 
扩展 圆圈 ， 并 查看 五 个 最 近邻 ， 并 这 样 作出 预测 (五 个 最 近邻 里 面 ， 有 三 个 蓝 色 方块 ， 所 以 
我 们 猜测 ，k=5 时 迷 之 绿色 圆圈 是 蓝 色 方块 。 








AN ) ， 查 看 它 的 单个 最 

近邻 ， 是 个 “红色 三 角 ”。 所 以 我 们 猜测 y 为 “红色 三 角 ”。 k=3 时 ， 查 看 三 
Ch kek Bee Rae ， 我 们 选 
数 ， 要 注意 9 变 为 了 "“ 蓝 色 方块 "。 图片 来 自 维基 百科 。 


个 最 近邻 : 这 
先 取 五 个 最 近邻 的 众 


就 是 这 样 。 这 就 是 KNN。 你 查看 了 K 个 最 近 的 数据 点 ， 如 果 变 量 是 连续 的 (例如 房价 ) 


wee > FL 
它们 的 均值 ; 如 果 变 量 是 离散 的 《例如 猫 或 者 狗 ) ， 取 它们 的 众 数 。 
如 果 你 打算 猜测 未 知 房 价 ， 你 可 以 选取 一 些 地 理 上 邻近 的 房子 ， 然 后 取 平 均 ， 你 就 会 得 到 一 


些 很 棒 的 猜测 。 这 可 能 甚至 优 于 参数 化 回归 模型 ， ie i 它们 来 估计 卧室 / 浴 
邻近 的 学 校 、 公 共 交 通 的 距离 ， 以 及 其 它 的 数量 的 参数 。 


如 何 使 用 KNN 来 预测 房价 : 


1) 储存 训练 集 。x 是 特征 ， 例 如 邮政 编码 、 令 居 、 卧 室 数 量 、 面 积 、 公 共 交 通 的 距离 ， 
以 及 其 它 。Y 是 对 应 的 售 价 。 


2) 将 你 的 训 " Ae BE Fe 


与 测试 集中 的 房子 的 相似 性 ， 基 于 x 中 的 特征 。 我 们 下 面 会 
定义 “相似 


3) 计算 K 个 最 令 近 的 房子 的 均值 。 这 就 是 你 对 售 价 (也 就 是 9 ) 的 猜测 。 


KNN 不 需要 预定 义 的 参数 化 函数 f(x) ， 它 用 于 将 Y 与 x 相关 联 。 这 使 得 
复杂 ， 不 能 用 简单 的 线性 模型 表示 的 情况 。 


距离 度量 : 定义 和 计算 “邻近 性 ” 


在 寻找 “最 近邻 "的 时 候 ， 你 如 何 计 算 问 题 中 的 数据 点 的 距离 呢 ? 你 如 何在 数学 上 判断 ， 示 例 中 
的 哪个 蓝 色 方块 和 红色 三 角 更 接近 绿色 圆圈 ? 尤其 是 ， 如 果 你 无 法 画 出 一 幅 泽 亮 的 二 维 图 
像 ， 用 眼睛 观测 它 ? 


最 直接 的 度量 是 欧 氏 (几何 ) 距离 (“ 像 马 鸦 飞 过 ”的 一 条 直线 ) 。 另 一 个 是 要 哈 顿 《街区 ) B 
离 ， 就 像 在 城市 块 中 行走 。 你 可 以 想象 ， 在 涉及 到 Uber 司机 的 费用 计算 的 模型 中 ， 曼 哈 顿 距 
离 更 加 实用 。 


有 和 和 EY 
有 和 和 LA 
EBERLE 有 


EEE 有 
E4EEE 
Zaki & 





绿色 直线 为 欧 氏 距离 。 蓝 色 直 线 为 曼哈顿 距离 。 来 源 : 维基 百科 
还 记得 用 于 寻找 直角 三 角形 斜 边 长 度 的 毕 达 梧 拉 斯 〈( 勾 股 ) 定理 嘛 ? 
a :+b = 
c 为 斜 边 (上 面 的 绿色 直线 ) ，a 和 b 是 两 个 直角 边 (上 面 的 红色 直线 ) 。 


人 我 们 就 解 出 了 co ， 求 出 了 斜 边 长 度 。 这 
wa 交 ) wm (也 就 是 ， 它 们 互 为 90 度 角 ， 在 空 eae 


c= a+b. 
给 定 两 个 正 交 方向 的 向 量 的 情况 下 ， 求 解 斜 边 长 度 的 思路 ， 可 以 推广 到 多 维 。 这 就 是 N AE 
间 的 点 p 和 的 欧 摊 距离 d(p,q) 的 推导 方式 : 


ie) 
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d(p,q) = d(q,p) = y/(m — pi) 十 (@ — Pa)” +--+ + (gn — Pn)” 





BRIER IAHR BAR aH 


amt. 
近邻 的 均值 或 众 数 ， 来 做 出 你 的 预测 。 


通常 你 不 需要 手动 计算 任何 距离 ， 用 搜索 引擎 简单 搜索 一 下 ， 你 就 能 在 NumPy 或 者 SciPy 
找到 ] 预 构建 的 郊 4 BL 会 为 你 做 这 个 事情 ， 何 | 如 ， euclidean_dist = numpy.linalg.norm(p-q) ° 
但 是 看 到 和 八 年 级 的 集合 概念 如 何 有 助 于 构建 当今 的 ML 模型 ， 这 很 有 趣 。 


选取 k :使 用 交叉 验证 调 优 超 参 数 
为 了 决定 我 们 使 用 哪个 K ， 你 可 以 测试 不 同 的 KNN 模型 ， 使 用 交叉 验证 以 及 kK 的 不 同 值 。 
。 将 你 的 训练 集 分 成 两 部 分 ， 在 一 部 分 上 训练 模型 ， 将 保留 的 部 分 用 作 测试 集 。 


e。 通过 将 模型 的 预测 Cy ) ， 与 测试 数据 的 丨 实 值 ( y ) 相 比 ， 看 看 你 的 模型 表现 如 何 。 


© 在 所 有 迭代 中 ， 通 第 选取 误差 最 小 的 模型 。 


lteration 1 Train Train Train Train Test 
lteration 2 Train Train Train Test Train 
Iteration 3 Train Train Test Train Train 
Iteration 4 Train Test Train Train Train 
Iteration 5 Test Train Train Train Train 


交叉 验证 的 演示 。 分 块 和 和 迭代 的 数量 可 以 修改 。 


K 的 较 局 值 防止 过 拟 合 


写 给 人 类 的 机 器 学 习 


K 的 较 高 值 能 防止 过 拟 合 ， 但 是 如 果 上 KK 太 高 的 话 ， 你 的 模型 会 有 很 大 偏差 ， 并 且 不 灵活 。 
取 一 个 极端 的 示例 : 如 果 kan (数据 点 的 总 数 ) ， 模 型 就 失效 了 ， 将 所 有 测试 数据 分 oi 
练 数据 的 均值 或 者 众 数 。 


如 果 动 物 数 据 和 集中 的 单个 昌 第 见 的 动物 是 苏格兰 折 耳 猫 ， k=N (训练 观测 值 数 量 ) 的 KNN 会 
将 实际 上 的 每 个 其 它 动物 预测 成 它 。 在 Vishal 看 来 ， 这 个 很 棒 ， 但 Samer 不 同意 。 





定 全 没有 来 由 的 苏格兰 折 耳 猫 .gif 。 我 们 可 以 休息 一 下 。 


丨 实 世 界 中 使 用 KNN 的 地 方 
一 些 你 可 以 使 用 KNN 的 地 方 : 


© DR: 诈骗 检测 I 马上 更 新 ， 因 为 你 仅仅 是 存储 新 的 数据 
点 ， 这 允许 你 快速 适应 新 的 诈骗 方法 。 


eB: 预测 房价 。 在 房价 预测 中 ， 字 面 上 的 “最 近邻 "实际 上 很 好 上 暗示 了 价格 上 的 相似 。 
KNN 在 物理 相 gh 用 。 


e 十 充 缺 失 的 训练 数据 。 如 果 你 的 ,csv 中 的 一 列 有 大 量 缺 失 值 ， 你 可 以 通过 选取 均值 或 者 
众 数 十 充 数据 。KNN 可 能 会 给 你 每 个 缺失 值 的 更 加 准确 的 猜测 。 


FR AH Fe Ba HU AR 


制作 一 颗 好 的 决策 树 就 像 玩 “20 个 问题 "的 游戏 。 
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A normal tree A decision tree 


Yes Fs lL. "Ak > 
Ae 
oo) \ ow ae oo 
alae babe 
going to dead going to dead 


survive survive 





右边 的 决策 树 描 述 了 泰坦 尼克 号 的 生还 者 规律 。 


策 树 根 节点 的 第 一 次 分 割 ， 就 像 是 20 个 问题 中 的 第 一 个 问题 : 你 打算 尽 可 能 干净 地 分 隔 数 
. > 所 以 这 个 分 割 的 信息 增益 应 该 最 大 。 


如 果 你 的 朋友 说 ，“ 我 正在 想 一 个 名 词 ， 问 我 20 个 是 或 不 是 的 问题 来 猜 猜 它 "”， 并 且 你 的 第 一 
nies eA We SRB KEY © I 它们 说 “ 是 ”"”， 你 没有 获得 任何 信息 。 除 非 
你 知道 你 的 朋友 整 天 都 在 想 土 豆 ， 或 者 刚刚 在 想 它 ， 那 么 你 就 猜 对 了 。 


反之 ， 美 似 “ 这 是 一 个 物体 嘛 ? "的 问题 可 能 更 有 意义 。 


这 有 点 类 似 医 院 分 类 病人 ， 或 者 做 出 不 同 的 诊断 的 方式 。 它 们 先 问 一 些 问题 ， 并 检查 一 些 重 
要 的 指标 来 判断 你 是 否 马 上 就 要 挂 了 ， 还 是 不 是 。 当 你 进门 的 时 候 ， 它 们 不 会 一 开始 就 做 切 
片 检 查 ， 或 者 检查 你 是 否 得 了 胰腺 癌 。 


有 几 种 方式 来 量化 信息 增益 ， 以 便 你 能 根本 上 求解 训练 集 的 每 个 可 能 的 分 割 ， 以 及 每 个 分 割 
的 信息 增益 。 你 可 以 用 这 个 方式 ， 尽 可 能 高 效 地 预测 每 个 标签 或 值 。 


现在 ， 让 我 们 查看 一 个 特定 的 数据 集 ， 并 讨论 我 们 如 何 选择 分 割 。 
泰坦 尼克 数据 集 
Kaggle 的 泰坦 尼克 数据 集 大 量 用 于 机 器 学 习 入 门 。 当 泰坦 尼克 沉没 时 ，2224 个 乘客 和 乘员 中 


有 1502 个 死亡 。 虽 然 包含 am heen 7 和 fF 般 更 有 可 能 生还 。 如 果 你 回去 看 
看 上 面 的 决策 树 ， 你 会 看 到 ， 它 某 些 程度 上 反映 了 性 别 、 年 龄 和 舱位 的 变化 。 


选择 决策 树 中 的 分 害 


WcBSePha PN BRM: HRA RFR LIES o wR ita SRA > WRRIRA ; 如 果 你 
4 U7 Sl GE > MAA MPR RANTS MERIET PT ART aR La 

rey 小 。 例 如 ， 在 泰坦 尼克 中 ， 性 别 是 生还 者 的 重要 决定 因素 ， 所 以 将 这 个 特征 用 于 第 

次 分 割 十 分 有 意义 ， 并 且 它 是 拥有 最 大 信息 增益 的 特征 。 


让 我 们 看 一 看 泰坦 尼克 的 变量 : 


Data Dictionary 


Variable Definition Key 

survival Survival 0 = No, 1 = Yes 

pclass Ticket class 1 = ist, 2 = 2nd, 3 = 3rd 
SEX Sex 

Age Age in years 


sibsp # of siblings / spouses aboard the Titanic 
parch # of parents / children aboard the Titanic 


ticket Ticket number 
fare Passenger fare 
cabin Cabin number 
embarked Port of Embarkation C = Cherbourg, Q = Queenstown, S = Southampton 


来 源 : Kaggle 


我 们 通过 选取 这 些 变 量 之 一 ， 以 及 根据 它 分 割 数据 集 ， 来 构建 决策 树 。 


Woman 


Yes fe a _ No 
Age Class 
f 二 jf sy, 
<30 / \ 330 1st class ~、 other 


i 


Probably Probably || Probably Probably 
going to dead going to dead 
survive survive 





第 一 次 分 割 将 我 们 的 数据 集 分 为 男性 和 女性 。 之 后 女性 分 支 又 按照 年 龄 分 割 (使 炉 最 小 的 分 
S|) 。 与 之 类 似 ， 男 性 分 支 按照 舱位 分 割 。 通 过 对 新 的 乘客 遍历 这 棵 树 ， 你 可 以 使 用 它 来 猜 


人 解决 了 分 类 问题 (生存 或 者 死亡 ) 。 如 果 我 们 将 决策 树 用 于 回归， 例如 预测 
房价 ， 我 们 可 以 分 割 决定 房价 的 最 重要 的 特征 。 面 积 : 大 于 或 小 于 xxx? 卧室 或 者 浴室 数量 : 
pe XXX ? 


之 后， 在 测试 期 间 ， ee 房子 遍历 所 有 分 割 ， 并 取 叶 子 节 点 的 所 有 房价 的 均值 
(最 底下 的 节点 ) ， 房子 就 会 成 为 你 的 售 价 预测 。 


决策 树 是 高 效 的 ， 因 为 它们 易于 解读 ， 即 使 对 凌乱 的 数据 也 很 强大 ， 并 且 一 旦 训练 完成 ， 部 
署 的 开销 很 小 。 决 策 树 也 擅长 于 处 理 混 合 数据 (数值 或 类 别 ) 。 


也 就 是 说 ， 决 策 树 的 训练 开销 很 大 ， 过 拟 合 的 风险 很 大 ， eee anole 
EDEIZE RABAT o AT RRR? RINB DT PAK? 
树 整 合 为 一 个 模型 的 力量 。 


四 aa 
Sy. 
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随机 森林 : 决策 树 的 集成 
由 多 个 模型 整合 的 模型 叫做 集成 模型 ， 这 通常 是 一 个 制胜 策略 。 


单个 决策 树 可 能 做 出 很 多 错误 判断 ， 因 为 它 有 很 多 非 黑 即 和 白 的 判断 。 随 机 森林 是 个 元 估计 
其 ， 它 继承 了 多 个 决策 树 ， 并 拥有 一 些 可 观 的 改进 : 


e 每 个 节点 上 分 割 的 特征 数量 限制 为 总 体 的 一 定 百分比 (这 是 个 可 以 调整 的 超 参 数 ， 详 见 
scikit-learn 的 文档 ) 。 这 确保 了 继承 模型 不 会 过 度 依 赖 单 个 特征 ， 并 且 公 平地 利用 所 有 
潜在 的 预测 性 特征 。 


© 每 棵 树 从 原始 数据 集 抽取 随机 样本 ， 来 生成 自己 的 分 割 ， 这 添加 了 进一步 的 随机 元 素来 
防止 过 拟 合 。 


这 些 改进 也 防止 了 树 的 高 度 相 关 。 如 果 没 有 上 面 的 第 一 条 和 第 二 条 ， 每 棵 树 都 是 相同 的 ， 因 
为 递归 的 二 元 分 害 时 决定 性 的 。 


为 了 演示 ， 看 看 下 面 的 九 个 决策 树 分 类 器 : 





来 源 : http://xenon.stanford.edu/~jianzh/ml/ 


这 些 决 策 树 分 类 器 可 以 集成 到 随机 穆 林 中 ， 它 整合 了 这 些 输入 。 将 横 轴 和 纵 轴 看 做 特 
征 x1 和 x2 。 对 于 每 个 特征 的 特定 值 ， 决策 树 输 出 " 蓝 色 ”、“ 绿 色 ” 和 "红色 ”的 分 类 。 





这 些 结果 通过 众 数 (分 类 ) 或 者 均值 (回归 ) 整合 为 单个 集成 模型 ， 它 优 于 单个 决 条 树 的 答 


随机 森林 是 建 模 过 程 的 一 个 非常 不 错 的 起 始点 ， 因 为 它们 对 于 不 整洁 的 数据 拥有 高 容忍 度 的 
强大 表现 。 并 且 ， 对 于 在 众多 特征 中 找到 最 重要 的 特征 非常 实用 

也 有 很 多 机 智 的 继承 模型 ， 它 组 合 了 决策 树 并 产生 非 第 棒 的 表现 。 请 查看 

XGBoost (eXtreme Gradient Boosting) 的 示例 。 


， 我 们 就 完成 了 监督 学 习 的 学 习 


非常 不 错 。 这 一 节 中 我 们 涉及 了 : 


© 两 个 非 参 数 监督 学 习 算 法 : KNN 和 决策 树 
。 距离 和 信息 增益 的 度量 

© 随机 森林 ， 它 是 集成 模型 的 示例 

© 交 又 验证 和 超 参 数 调 优 


我 布 望 ， 你 现在 有 了 一 些 可 靠 的 直觉 ， 对 于 在 给 定 训 练 集 的 情况 下 ， 我 们 如 何 习 得 fF ， 以 及 
使 用 它 和 测试 数据 做 出 预测 。 


在 “第 三 部 分 : 无 监督 学 习 ” 中 ， 我 们 讨论 当 我 们 拥有 不 带 标签 的 训练 集 时 ， 如 何 解 决 问题 。 


练习 材料 和 扩展 阅读 


2.3a 实现 KNN 


尝试 这 个 攻略 ， 在 Python 中 从 零 开 始 实现 KNN。 你 可 能 也 打算 看 一 看 scikit-learn 的 文档 ， 
来 体验 预 构 建 的 实现 的 工作 方式 。 


2.3b 决策 树 

尝试 《An Introduction to Statistical Learning》 中 的 第 八 章 的 决策 树 实 验 。 你 可 以 使 用 泰坦 尼 
克 训 练 集 来 玩 玩 ， 并 且 查 看 过 个 教程 ， 它 涵盖 了 与 上 面相 同 的 概念 和 代码 。 这 里 是 随机 森林 
的 scikit-learn 实现 ， 可 以 在 数据 集 上 开 箱 即 用 。 


原文 : Machine Learning for Humans, Part 3: Unsupervised Learning 

作者 : Vishal Maini 

译 者 : 机 器 之 心 

聚 类 和 降 维 : K-Means 有 聚 类 ， 层 次 有 聚 类 ， 主 成 分 分 析 (PCA) ， 奇 异 值 分 解 (SVD) 。 


我 们 可 以 怎样 发 现 一 个 数据 集 的 底层 结构 ?我 们 可 以 怎样 最 有 用 地 对 其 进行 归纳 和 分 组 ?我 
们 可 以 怎样 以 一 种 压缩 格式 有 效 地 表征 数据 ? 这 都 是 无 监督 学 习 的 目标 ， 以 称 之 为 | 无 
监督 | ， 定 因为 这 是 从 无 标签 的 数据 开始 学 习 的 。 


我 们 将 在 这 里 探索 的 两 种 无 监督 学 习 任 务 是 : 1) 将 数据 按 相似 度 聚 类 (clustering) 成 不 同 的 
分 组 ; 2) 降 维 (reducing dimensionality) ， 以 便 在 保留 数据 结构 和 有 用 性 的 同时 对 数据 进 
行 压缩 。 


e 一 家 广告 平台 需要 根据 相似 的 人 口 学 特征 和 购买 习惯 将 美国 人 口 分 成 不 同 的 小 组 ， 
以 便 广 告 客户 可 以 通过 有 关联 的 广告 接触 到 他 们 的 目标 客户 。 


e Airbnb 需要 将 自己 的 房屋 清单 分 组 成 不 同 的 社区 ， 以 便 用 户 能 更 轻松 地 查阅 这 
单 Oo 

。 一 个 数据 科学 团队 需要 降低 一 个 大 型 数据 集 的 维度 的 数量 ， 以 便 简化 建 模 和 降低 文 
TR 


和 监督 学 习 不 同 ， 要 找到 评价 无 监督 学 习 算 法 优 劣 的 指标 可 并 不 轻松 。『「[ 表 现 水 平 ] 往往 是 
主观 的 ， 而 且 因 领域 不 同 而 各 不 相同 。 


HA SK 

Re AR 

聚 类 的 一 个 有 趣 的 真实 应 用 案例 是 营销 数据 提供 商 Acxiom 的 人 生 阶 段 聚 类 系统 Personicx 。 
这 项 服务 将 美国 家 庭 分 成 了 70 个 不 同 的 聚 类 ， 它 们 分 属于 21 个 人 生 阶 段 分 组 ， 可 以 被 广告 
主 用 于 投放 定向 Facebook 广告 、 陈列 式 广告 和 直 邮 广告 等 。 


1Y STARTING OUT 

Cluster 39 Setting Goals 

Cluster 45 Offices & Entertainment 
Cluster 57 Collegiate Crowd 
Cluster 58 Outdoor Fervor 


Cluster 67 First Steps 


2Y TAKING HOLD 

Cluster 18 Climbing the Ladder 
Cluster 21 Children First 
Cluster 24 Career Building 
Cluster 30 Out & About 


3Y SETTLING DOWN 
Cluster 34 Outward Bound 


Personix A 0 #44 HE RH 4 


他 们 的 白皮书 表明 他 们 使 用 了 重 


一 节 都 有 黎 盖 。 


TRY VAR R > toR yy se 
趣 和 生活 习惯 向 洪 在 新 客户 投放 是 向 广告 以 便 高 效 利 用 广告 开支 ， 那 么 


第 有 用 。 


一 部 2» 


8X LARGE HOUSEHOLDS 
Cluster 11 Schools & Shopping 
Cluster 12 On the Go 

Cluster 19 Country Comfort 


Cluster 27 Tenured Proprietors 


9B COMFORTABLE INDEPENDENCE 


Cluster 29 City Mixers 
Cluster 35 Working & Active 
Cluster 56 Metro Active 


10B RURAL-METRO MIX 
Cluster 47 Rural Parents 
Cluster 53 Metro Strivers 
Cluster 60 Rural & Mobile 


vv 


FJ 


SRF (centroid clustering) 和 主 成 分 分 析 ，: 


1) 理解 他 们 已 有 的 客户 群 ， 


15M TOP WEALTH 
Cluster 2 Established Elite 


Cluster 3 Corporate Connected 


16M LIVING WELL 
Cluster 14 Career Centered 
Cluster 15 Country Ways 
Cluster 23 Good Neighbors 


17M BARGAIN HUNTERS 
Cluster 43 Work & Causes 
Cluster 44 Open Houses 
Cluster 55 Community Life 
Cluster 63 Staying Home 
Cluster 68 Staying Healthy 


这 两 种 技术 在 


ee 


EAE at HAT SE 


What's My Cluster ? 


Cluster #24: Career Building 


Career Building singles are young, but well compensated. 
While repaying their education loans they are beginning to 
save and invest. They favor trendy stores that cater to their 
age range, incomes and aspirations, such as Express, H&M 
and Sephora. They enjoy new technology, and read 
magazines on mobile devices. They visit The Apple Store. 
They use the Internet extensively for entertainment news, music, podcasts and 
services. Sports are important, too, either as a fan or a participant. They listen to 
football, watch MMA and have fun skiing and playing volleyball. 





pg 中 回答 几 个 简单 问题 ， 你 就 
能 知道 你 个 人 属于 哪个 聚 类 。 


让 我 们 了 解 几 种 聚 类 方法 ， 看 看 这 样 的 任务 是 如 何 完 成 的 。 


K 均值 有 类 
[重心 之 赛 有 k 个 糜 戒 ， 在 那 之 上 ， 是 希望 的 力量 


的 目标 是 为 数据 点 分 组 ， 使 得 不 同 聚 类 中 的 数据 点 是 不 相似 的 ， 同 一 有 聚 类 中 的 数据 点 则 
似 的 。 


BA 
He 
日 
xe 


机 
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24 vw? < 
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写 给 人 类 的 机 


使 用 K 均值 聚 类 ， 我 们 希望 将 我 们 的 数据 点 聚 类 为 K 组 。K 更 大 时 ， 创 造 的 分 组 就 更 小 ， 就 
有 更 多 粒度 ; K 更 小 时 ， 则 分 组 就 更 大 ， 粒 度 更 少 。 


该 算法 的 输出 是 一 组 [标签 | ， 这 些 标签 将 每 个 数据 点 都 分 配 到 了 K 组 中 的 一 组 。 在 K 均值 
聚 类 中 ， 这 些 组 的 定义 方式 是 为 每 个 组 创造 一 个 重心 (centroid) 。 这 些 重 心 就 像 是 聚 类 的 心 
脏 ， 它 们 可 以 [捕获 ] 离 自 己 最 近 的 点 并 将 其 加 入 到 自己 的 聚 类 中 。 


你 可 以 把 这 些 重心 看 作 是 派对 上 成 为 关注 焦点 的 人 人， 他们 就 像 是 有 磁 ， 性 一 样 。 0 如果 只 有 一 个 
这 样 的 人 ， 每 个 人 都 会 围绕 在 他 周围 ; 如 果 有 很 多 这 样 的 人 ， 就 会 形成 很 多 更 小 一 点 的 活动 
中 心 。 


K 均值 聚 类 的 步 又 如 下 


1. 定义 K 个 重心 。 一 开始 这 些 重心 是 随机 的 (也 有 一 些 更 加 有 效 的 用 于 初始 化 重心 的 
算法 ) 


2. 了 寻找 最 近 的 重心 并 且 更 新 聚 类 分 配 。 将 每 个 数据 点 都 分 配给 这 K 个 聚 类 中 的 一 个 。 
nr 配给 离 它 们 最 近 的 重心 的 聚 类 。3 ova teed | 的 度量 是 
通常 是 欧 几 里 得 距离 (Euclidean distance) 。 





3， 将 重心 移动 到 它们 的 聚 类 的 中 心 。 每 个 聚 类 的 重心 的 新 位 置 是 通过 计算 该 聚 类 中 所 
有 数据 点 的 平均 位 置 得 到 的 。 


重复 第 2 和 3 步 ， 直 到 每 次 迭代 时 重心 的 位 置 不 再 显著 变化 ( 即 直 到 该 算法 收 化 ) © 


这 就 是 K 均值 聚 类 工作 方式 的 精简 版 ! 该 算法 的 可 视 化 演示 可 在 这 里 查看 ， 你 可 以 像 读 漫画 
一 样 理解 。 平 面 上 的 每 个 数据 点 都 根据 离 自己 最 近 的 重心 加 了 磊 色 。 你 可 以 看 到 这 些 重心 
(更 大 一 点 的 蓝 点 、 红 点 和 绿 点 ) 一 开始 是 随机 的 ， 然 后 很 快 进行 了 调整 ， 得 到 了 它们 各 自 


ARR © 





三 、 无 监督 学 习 48 


K 均值 聚 类 的 另 一 个 真实 应 用 是 分 类 手写 数字 。 假 设 我 们 有 用 像素 亮度 的 长 向 量 表示 的 数字 
的 图 像 。 假 设 这 些 图 像 是 黑白 两 色 的 ， 大 小 为 64x64 像素 。 每 个 像素 代表 一 个 维度 。 那 么 这 
些 图 像 就 生活 在 一 个 有 64x64=4096 个 维度 的 世界 里 。 在 这 个 4096 维 的 世界 里 ，K 均值 聚 3 
让 我 们 可 以 按 接 近 程 度 对 这 些 图 像 分 组 ， 并 且 假 设 这 些 靠 得 很 近 的 图 像 都 是 同一 个 数字 。 这 
种 算法 可 以 在 数字 识别 上 得 到 相当 好 的 结果 。 


. 


2 4 Hz 

层次 及 类 

[让 我 们 把 100 万 个 选项 变 成 7 个 选项 。 或 者 5 个 。 或 者 20 个 ? 呢 ， 我 们 可 以 过 会 儿 决 
eo | 

层次 聚 类 类 似 于 常规 的 聚 类 ， 只 是 你 的 目标 是 构建 一 个 聚 类 的 层次 。 如 果 你 最 终 的 聚 类 数量 
不 确定 ， 那 这 种 方法 会 非常 有 用 。 比 如 说 ， 假 设 要 给 Etsy 或 亚马逊 等 网 络 市 场 上 的 项 目 分 


组 。 在 主页 上 ， 你 只 需要 少量 大 组 方便 导航 ， 但 随 着 你 的 分 类 越 来 越 特 定 ， 你 需要 的 粒度 水 
平 也 越 来 越 大 ， 即 区 别 更 加 明显 的 项 聚 类 。 


在 萌 法 的 输出 方面 ， 除 了 聚 类 分 配 ， 你 也 需 ey 吉 构 ， 以 帮助 你 了 解 这 
类 之 间 的 层次 结构 。 然 后 你 可 以 从 这 个 树 中 选 布 望 得 到 的 聚 类 数量 


层次 聚 类 的 步骤 如 下 : 


1， 首 先 从 NN 个 聚 类 开始 ， 每 个 数据 点 一 个 聚 类 。 
2. 将 彼此 靠 得 最 近 的 两 个 聚 类 融合 为 一 个 。 现 在 你 有 N-1 个 聚 类 。 


3. 重新 计算 这 些 聚 类 之 间 的 距离 。 有 很 多 可 以 办 到 这 件 事 的 方法 《参见 这 个 教程 了 解 
细节 ) 。 其 中 一 种 方法 〈 平 均 连 接 聚 类 ，average-linkage clustering) 是 将 两 个 
聚 类 之 间 的 距离 看 作 是 它们 各 自 元 素 之 间 所 有 距离 的 平均 。 


4. 重复 第 2 和 3 步 ， 直 到 你 得 到 包含 N 个 数据 点 的 一 个 聚 类 。 你 就 会 得 到 如 下 图 所 示 
的 树 (也 被 称 为 树 状 图 ) ) 。 


5， 选 择 一 个 聚 类 数量 ， 然 后 在 这 个 树 状 图 中 划一 条 水 平 线 。 比 如 说 ， oe 
要 k=2 MRR? MBRAREIAKAA ane 的 位 置 画 一 条 水 平 线 ， Af B — eh 
含 数据 点 8、9、11、16 的 聚 类 和 包含 其 它 数 据点 的 另 一 个 聚 类 。 ae ， 你 得 
到 的 聚 类 的 数量 就 是 水 平 线 与 树 状 图 中 的 坚 直 线 的 交叉 点 的 数量 。 


Dendrogram 
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来 源 : Solvercom。 更 多 有 关 层 次 聚 类 的 详细 信息 ， 可 参阅 这 个 视频 。 


降 维 

[对 于 那些 该 砍 去 的 非 精髓 部 分 的 态度 ， 并 不 是 每 天 增加 吸收 ， 而 是 每 日 尽量 排 减 。]」 一 一 
Pa 

从 小 龙 


降 维 看 上 去 很 像 压缩 。 这 是 为 了 在 尽 可 能 保存 相关 的 结构 的 同时 降低 数据 的 复杂 度 。 如 果 你 
有 一 张 简单 的 128x128x3 像素 的 图 像 (长 x 宽 xRGB 值 ) ， 那 么 数据 就 有 49152 维 。 如 果 你 可 
以 给 这 个 图 像 空 间 降 维 ， 同 时 又 不 毁 掉 图 像 中 太 多 有 意义 的 内 容 ， 那 么 你 就 很 好 地 执行 了 降 
维 。 


我 们 将 了 解 两 种 实际 中 很 常用 的 降 维 技术 : ED AT Fe ay EAD AR 
主 成 分 分 析 (PCA) 


首先 ， 了 解 一 点 线性 代数 知识 一 一 看 看 空间 (space) 和 基 (base) 。 





你 应 该 知道 由 原点 0(0,0) FAAS i(1,0) 与 j(o,1) 定义 的 坐标 平面 。 事 实 上 ， 你 也 可 以 选 
择 一 个 完全 不 同 的 基础 ， 其 中 的 数学 仍然 有 效 。 比 如 说 ， 你 可 以 保持 原点 仍然 为 O， 但 选 

择 i'=(2,1) 和 j'=(1,2) 作为 基 向 量 。 如 果 你 有 耐心 计算 一 下 ， 你 会 发 现在 i'，j' 坐标 系统 
中 标记 为 (2,2) 的 点 在 i, 7 系统 标记 为 (6, 6) 。 


(6.0,6.0) 


LH 5 


(1.0,2.0) 


2} 


(0.0,1.0) (2.0,1.0) 
Le 
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使 用 Mathisfun 的 「 交 互 式 笛 卡尔 坐标 」 绘制 


这 意味 着 我 们 可 以 修改 空间 的 基础 。 现 在 想象 有 更 高 维度 的 空间 ， 比 如 有 5 万 维 。 你 可 以 为 
这 个 空间 选择 一 个 基础 ， 然 后 根据 这 个 基础 仅 选 择 200 个 最 重要 的 向 量 。 这 些 基 向 量 被 称 为 
主 成 分 ， 而 且 你 可 以 选择 其 中 一 个 子 集 构成 一 个 新 空间 ， 它 的 维度 比 原来 的 空间 少 ， 但 又 保 
留 了 尽 可 能 多 的 数据 复杂 度 。 


要 选择 出 最 重要 的 主 成 分 ， 我 们 需要 检查 这 些 数据 的 方差 ， 并 按 这 个 指标 给 它们 排序 


理解 PCA 的 另 一 个 思路 是 PCA 将 我 们 数据 中 存在 的 空间 重 映射 成 了 一 个 更 加 紧凑 的 空间 。 
这 种 变换 后 的 维度 比 原来 的 维度 更 小 。 


仅 需 使 用 重 映射 空间 的 前 几 个 维度 ， 我 们 就 可 以 开始 理解 这 个 数据 集 的 组 织 结构 。 这 就 是 降 
维 的 目的 : 减少 复杂 度 ( 即 这 里 的 维度 ) ， 同 时 保留 结构 (方差) 。 这 里 有 篇 Samer 写 的 论 
文 ， 介 绍 了 使 用 PCA (以 及 扩散 映射 等 技术 ) 试图 理解 维基 解密 披露 的 电报 。 


奇异 值 分 解 (SVD) 


假设 我 们 将 我 们 的 数据 表示 成 一 个 A=mxn 的 大 型 矩阵 。SVD 让 我 们 可 以 将 这 个 大 型 矩阵 分 解 
成 3 个 较 小 的 矩阵 的 乘积 ; 这 3 个 矩阵 分 别 是 U=m x rh MAE ser xr Y Verxn ? 
中 r 是 一 个 很 小 的 值 ° 
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在 这 个 rxr 的 对 角 和 矩阵 z 中 的 值 被 称 为 奇异 值 。 这 些 值 的 奇妙 之 处 是 可 以 被 用 于 压缩 原来 的 
和 矩阵， 如 果 你 丢弃 奇异 值 中 最 小 的 20% ARE fey 中 相关 的 列 ， 你 就 可 以 节省 大 量 空 
间 ， 同 时 仍然 能 很 好 地 表征 原来 的 和 矩阵。 


为 了 更 准确 地 了 解 其 中 的 含义 ， 我 们 来 看 看 一 张 小 狗 的 图 片 : 
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我 们 将 使 用 Andrew Gibiansky 写 的 关于 SVD 的 文章 中 的 代码 。 首 先 ， 我 们 发 现 如 果 我 们 根 
据 大 小 排序 这 些 奇 异 值 (矩阵 z 的 值 ) > MBAR 50 个 奇异 值 将 包含 整个 矩阵 三 的 大 小 的 
85% ° 
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Cumulative Percent of Total Sigmas 
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0.8 The first 50 values of the 
matrix sigma represent 
~85% of the cumulative 
sigmas 
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根据 这 个 事实 ， 我 们 可 以 丢弃 后 面 的 250 个 值 (即将 它们 设 为 0) ， 仅 保留 这 张 小 狗 图 像 的 
[rank ( 秩 ) 50] 版 本 。 这 里 ， 我 们 创建 了 秩 为 200、100、50、30、20、10 和 3 的 小 狗 照 
。 显 然 ， 照 片 变 小 了 。 但 假设 我 们 认为 秩 为 30 的 小 狗 仍 然 很 好 ， 现 在 让 我 们 看 看 我 们 实现 
了 多 少 压 缩 。 原 先 的 图 像 矩 阵 有 305*275 = 83,875 个 值 ， 秩 为 30 的 图 像 则 
有 305*30+30+30*275=17,430 个 值 。 值 的 数量 差不多 少 了 5 倍 ， 但 质量 却 下 降 很 少 。 上 述 计 算 
的 原因 是 当 我 们 执行 Uz'v 运算 时 ，U 和 vy 给 阵 中 的 一 部 分 因为 乘 0 也 被 丢弃 (其 
中 z! 是 z 的 修改 后 版 本 ， 其 中 仅 包 含 了 前 面 的 30 个 值 ) 。 


也 ww 
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Full-Rank Dog Rank 200 Dog 
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无 监督 学 习 篆 第 被 用 于 数据 预 处 理 。 一 般 而 言 ， 这 意味 着 以 某 种 平均 -保留 的 方式 压缩 数据 ， 
比如 PCA 或 SVD ;之 后 ， 这 些 数据 可 被 用 于 深度 神经 网 络 或 其 它 监 督 式 学 习 算 法 。 

SN AF 十 

请 继续 | 


既然 你 完成 了 这 一 章 ， 你 已 经 得 到 了 一 个 糟糕 的 、 永 远 不 会 再 次 提 及 的 无 监督 学 习 的 笑话 。 
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Person-in-joke-#1: Y would u ever need to use unsupervised tho? 
Person-in-joke-#2: Y? there's no Y. 


下 面 是 第 四 章 : 神经 网 络 和 深度 学 习 。 


实践 材料 和 扩展 阅读 


3a K-Means 采 类 


玩 一 玩 这 个 聚 类 的 演示 ， 来 构建 算法 工作 原理 的 直觉 。 之 后 ， 看 一 看 这 个 手写 数字 的 K- 
Means 2A LM > VARA KAGE © 


3b SVD 


对 于 SVD 的 不 错 的 参考 ， 没 有 东西 比 Andrew Gibiansky 的 文章 更 好 了 。 


、 神 经 网 络 和 深度 学 习 


原文 : Machine Learning for Humans, Part 4: Neural Networks & Deep Learning 
作者 : Vishal Maini 

A: RB 

tw : CC BY-NC-SA 4.0 


深度 神经 网 络 的 工作 地 点 、 原 因 和 方式 。 从 大 脑 中 获取 灵感 。 卷 积 神经 网 络 (CNN) 和 
循环 神经 网 络 (RNN) 。 申 实 世 界 中 的 应 用 。 


使 用 深度 学 习 ， 我 们 仍然 是 习 得 一 个 函数 f ， 将 输入 x 映射 为 输出 Y ， 并 使 测试 数据 上 的 
损失 最 小 ， 就 像 我 们 之 前 那样 。 回 忆 一 下 ， 在 2.1 节 监 督学 习 中 ， 我 们 的 初始 "问题 陈述 ”: 
ye 


训练 : 机 器 从 带 标 签 的 训练 数据 习 得 ff 


测试 : 机 器 从 不 带 标 签 的 测试 数据 预测 Y 


监 实 世 界 很 乱 ， 所 以 有 时 f 很 复杂 。 在 自然 语言 问题 中 ， yd 意味 着 大 量 特征 。 
视觉 问题 设计 大 量 的 像素 相关 的 视觉 信息 。 玩 游戏 需要 基于 复杂 ee 


能 的 未 知 。 当 我 们 处 理 的 数据 不 是 很 复杂 时 ， 我 们 目前 涉 need Sd 
们 如 何 推 广 到 像 这 样 的 场景 ， 还 不 清楚 。 


深度 学 习 非 常 善于 习 得 f ， 特 别 是 在 数据 很 复杂 的 场景 中 。 实 际 上 ， 人 工 神 经 网 络 也 被 成 为 
通用 函数 近似 器 ， 因 为 它们 能 够 学 习 任 何 函 数 ， 无 论 多 么 捏 曲 ， 都 只 需要 一 个 隐藏 层 


让 我 们 看 看 图 像 分 类 的 问题 。 我 们 选取 一 张 图 片 作为 输入 ， 并 输出 一 个 分 类 (例如 狗 、 猫 、 
车 ) 。 


通过 图 解 ， 深 度 神 经 网 络 的 图 像 分 类 解决 方式 ， 类 似 于 这 样 : 


hikion law? | tfidden laver 2 helden law 5 


a in 
i. Se hb 
rt i" ‘ ih | 
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Image labels 


图 片 来 自 Jeff Clune 在 YouTube 上 的 一 小 时 深度 学 习 概 览 


pean ， 这 是 个 巨大 的 数学 方程 ， 有数 百 万 个 项 和 大 量 参 数 。 假 设 输 入 x 是 灰 度 图 像 ， 

wh 的 像素 亮度 矩阵 表示 。 输 出 Y 是 每 个 分 类 的 概率 的 向 量 。 也 就 是 说 ， 我 们 输出 “每 个 分 
签 ” 的 概 举 。 如 果 这 个 神经 网 络 能 用 的 话 ， ghrp 。 然后， 中 
间 的 层 仅 仅 计 算 大 量 的 矩阵 相同 ， 通 过 在 每 个 隐藏 层 之 后 ， 使 用 非 线 性 变换 (激活 函数 ) ， 
对 激活 值 x 的 权重 求 和 ， 来 让 神经 网 络 习 得 非 线 性 郊 数 。 


难以 置信 的 是 ， 你 可 以 使 用 梯度 下 降 ， 以 2.1 节 中 我 们 对 线性 回 上 所 做 的 相同 方式 ， 使 损失 
最 小 。 所 以 使 用 大 量 样本 和 大 量 梯度 下 降 ， 模 型 可 以 习 得 如 何 正 确 分 类 动物 图 片 。 这 个 ， 简 
单 来 说 ， 就 是 深度 学 习 "。 


宁 度 学 习 做 得 好 的 地 方 ， 以 及 一 些 历 史 


人 工 神经 网 络 实际 上 有 很 长 时 间 了 。 它 们 的 应 用 可 追溯 到 控制 论 (cybernetics， 
1940s~1960s) ， 连 接 机 制 (connectionism，1980s~1990s) ， 之 后 变 成 了 流行 的 深度 

习 。 大 约 在 2006 年 ， 神 经 网 络 开 始 变 得 "更深 ”(Goodfellow 等 ，2016) 。 但 是 最 近 ane 
开始 触及 它们 的 全 部 潜能 。 


就 像 Andrej Karpathy ( 特 斯 拉 的 Al 总 监 ， 它 被 认为 是 深度 学 习 的 Shaman) 描述 的 那样 ， 
有 四 个 “将 Al 带 回 来 ”的 不 同 因素 : 


。 计算 (最 明显 的 一 个 : 摩尔 定律 ，GPU，ASIC ) 

0 数据 (以 不 错 的 形式 ， 并 不 在 互联 网 上 某 处 ， 也 就 是 ImageNet) 

。 算法 (研究 和 理念 ， 也 就 是 backprop, CNN, LSTM) ， 以 及 

© 基础 设施 (你 下 面 的 软件 ，Linux, TCP/IP, Git, ROS, PR2, AWS, AMT, TensorFlow, 以 及 


其 它 ) (Karpathy 2016) 。 
在 过 去 的 十 年 当中 2 RE =) 8 ASRS EE GE 9 最 终 被 (1) 和 (2 ) 的 进步 解锁 它 反 过 来 产生 
了 (3) 和 (4) 的 突破 。 并 且 这 个 循环 仍 在 继续 ， 成 倍 的 人 们 沿 着 这 条 路 ( 想 想 你 
事情 ) ， 不 断 参与 到 深度 学 习 研 究 的 前 线 中 。 
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1950's 1960's 1970's 1980's 1990's 2000's 2010's 


Since an early flush of optimism in the 1950s, smaller subsets of artificial intelligence - first machine learning, then 
deep learning, a subset of machine learning ~ have created ever larger disruptions. 


由 NVIDIA 演示 ， 它 是 一 家 核弹 GPU 领导 厂商 。GPU 最 开始 为 游戏 构建 ， 但 是 最 终 很 
好 地 顺应 了 深度 学 习 所 需 的 并 行 计算 。 


在 这 一 草 的 剩余 部 分 中 ， 我 们 提供 一 些 来 自生 物 和 统计 的 被 力 静 ， 来 解释 神经 网 络 里 面 发 生 
额 了 什么 ， 之 后 讨论 深度 学 习 的 一 些 神奇 应 用 。 最 后 ， 我 们 链接 到 一 些 资 源 ， 所 以 你 可 以 自 
行 应 用 深度 学 习 ， 甚 至 穿着 睡衣 坐 在 沙发 上 ， 人 钙 着 笔记 本 ， 在 特定 种 类 的 问题 上 快速 实现 超 
越 人 类 级 别 的 表现 。 


从 大 脑 中 (或 者 只 是 统计 ?) 获取 灵感 : 神经 网 络 中 发 
生 了 什么 


神经 元 、 特 征 学 习 和 抽象 层次 


当 你 阅读 这 些 词汇 的 时 候 ， 你 并 没有 检查 每 个 词 的 每 个 字 ， 或 者 组 成 字 的 每 个 像素 ， 来 获得 
单词 的 含义 。 你 从 细节 中 将 东西 抽象 、 组 装 成 高 阶 的 概念 : 词 、 短 语 、 句 子 、 段 落 。 
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Yuor abiilty to exaimne hgiher-lveel fteaures is waht aollws yuo to unedrtsand waht is 
hpapening in tins snetecne wthiout too mcuh troulbe (or myabe yuo sned too mnay 
dnruk txets). 


(你 检测 高 阶 特征 的 能 力 ， 让 你 理解 甸子 中 发 生 的 东西 ， 而 不 会 太 麻 烦 (或 者 可 能 你 发 送 了 
大 量 的 乱 友 文本 ) © 

视觉 上 发 生 的 事情 相同 ， 这 并 不 仅仅 在 人 类 ， 也 在 动物 的 视觉 系统 中 。 

大 脑 由 神经 元 组 成 ， 它 们 在 足够 “激活 "之 后 ， 通 过 向 其 他 神经 元 发 送 电 信号 来 “触发 ">。 这 些 神 
经 元 都 是 可 塑 的 ， Pe tad 
说 ， 将 神经 元 彼此 连接 的 权重 最 后 会 被 训练 ， 使 神经 连接 更 加 有 用 ， 就 像 线 性 回归 中 的 参数 
可 以 被 训练 ， 来 改进 输入 到 输出 的 映射 ) 。 
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生物 和 人 工 神 经 网 络 的 端 到 端的 演示 ， 来 自 斯 坦 福 CS231n。 这 个 比喻 不 是 很 严 说， 生 
物 神 经 元 可 以 做 人 工 神 经 元 不 能 做 的 事 ， 反 之 亦 然 。 但 是 理解 生物 中 的 灵感 十 分 有 用 。 
更 多 细节 请 见 生物 和 人 工 神 经 元 的 维基 百科 的 描述 。 


我 们 的 生物 网 络 以 层次 方式 排列 ， 以 便 特 定神 经 元 最 终 检 测 我 们 周围 的 世界 的 ， 不 是 极其 特 
定 的 特征 ， 而 是 更 加 抽象 的 特征 ， 也 就 是 ， 更 低 阶 的 特征 的 规律 或 者 分 组 。 例 如 ， 人 类 视觉 
系统 中 的 纺锤 状 脸 部 区 域 可 特别 用 于 人 脸 识别 。 


Raw data Low-level features Mid-level features High-level features 
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持续 学 习 抽 象 特征 的 演示 ， 来 自 NVIDIA。 








人 工 神经 网 络 如 何 选取 原始 像素 输入 ， 开 发 中 介 "“ 神 经 元 "来 检测 高 阶 特征 (也 就 是 鼻子 的 
GE) ， 以 及 组 合 它 们 的 输出 来 创建 最 终 输 出 。 来 自 《 神 经 网 络 和 深度 学 习 》 (Nielsen, 
2017) 。 


生物 神经 网 络 表现 出 的 层次 结构 最 早 于 1950s 发 现 ， 当 研究 员 David Hubel 和 Torsten 
Wiesel 研究 猫 的 视觉 皮层 中 的 神经 元 的 时 候 。 在 给 猫 大 量 刺激 之 后 ， 它 们 不 能 观 办 到 神经 活 
动 : 瞳 点 、 亮 点 、 挥 手 、 甚 至 是 杂志 上 的 女性 照片 。 但 是 在 它们 的 失望 中 ， 它 们 从 投影 仪 中 
移 除 了 对 角 线 处 的 照片 ， 它 们 注意 到 了 一 些 神经 活动 。 结 果 是 ， 位 于 某 个 特定 角度 的 ， 对 角 
线 上 的 边 能 够 导致 特定 的 神经 元 被 激活 。 


https:/medium.com/media/a9eddb961e4bc9ca2d118b64525c2659?postld=cdad8aeae49b 


图 片 来 自 Knowing Neurons 


2 
z 


KPRMAMABLT ? AAA ARH OR RAMU (AMIR AST) 。 所 以 当 野 外 
的 猫 感知 到 一 条 “ 边 " 的 时 候 ， 也 就 是 一 条 不 同 于 背景 的 线 ， 这 可 能 表明 ， 一 个 物体 或 者 生物 进 
入 了 视野 范围 。 当 边缘 的 神经 元 的 特定 组 合 被 激活 时 ， 这 些 活 动 会 集体 产生 更 加 抽象 的 活 
动 ， 以 此 类 推 ， 直 到 最 终 的 抽象 是 个 有 用 的 概念 ， 比 如 " 乌 ? 或 者 " 狼 ”。 


深度 神经 网 络 背 后 的 概念 就 是 ， 使 用 人 工 神 经 网 络 的 层次 来 模拟 类 似 的 结构 。 


为 什么 线性 模型 不 能 用 


为 了 提炼 斯 坦 福 的 优秀 的 深度 学 习 课 程 ，CS231n : 卷 积 神经 网 络 和 视觉 识别 ， 想 象 我 们 打 昔 
训练 一 个 神经 网 络 ， 使 用 下 列 标签 的 正确 的 那个 来 分 类 图 


AZ : ["plane", alors gage "bird", Ga "deer", "dog", "frog", "horse", "ship", "truck" | O 


写 给 人 类 的 机 器 学 习 


一 种 方式 可 能 是 ， 使 用 训练 样本 为 每 个 分 类 构造 一 个 "模板"， 或 者 平均 图 像 ， 之 后 使 用 最 近邻 
算法 ， 在 测试 期 间 来 度量 每 个 未 分 类 图 像 的 像素 值 ， 到 每 个 模板 的 距离 。 总 的 来 说 是 这 样 。 
这 个 方法 不 涉及 任何 抽象 层次 。 这 是 个 线性 模型 ， 将 每 个 图 像 类 型 的 所 有 不 同 的 方向 组 合 为 
一 个 平均 的 影子 。 

例如 ， 它 可 以 选取 所 有 的 车 ， 无 论 它们 面向 左边 、 右 边 、 中 间 ， 也 无 论 它们 的 颜色 ， 只 是 将 
它们 平均 。 模 板 最 终 看 起 来 非常 模糊 。 


plane car bird cat deer 7 
| 


来 自 斯 坦 福 CS231n 第 二 篇 讲义 的 样本 。 


horse ship 


frog truck 


要 注意 ， 上 面 的 马 的 模板 出 现 了 两 个 头 。 这 对 我 们 并 没什么 帮助 : 我 们 想 要 能 够 分 别 检测 头 
朝 右 边 或 者 头 朝 左边 的 马 ， 并 且 如 果 这 些 特征 的 任何 一 个 被 检测 到 了 ， 我 们 就 说 我 们 看 到 了 
一 匹 马 。 深 度 神经 网 络 提供 给 我 们 这 种 灵活 性 ， 我 们 会 在 下 一 节 中 看 到 。 





深度 神经 网 络 使 用 抽象 层 来 解决 图 像 分 类 问题 。 


O 


为 了 重复 我 们 在 这 一 节 之 前 解释 的 东西 : 输入 层 接受 图 像 的 原始 像素 亮度 。 最 终 的 层级 会 是 
类 概率 的 输出 向 量 (也 就 是 图 像 是 猫 、 车 子 、 马 ， 以 及 其 他 的 概率 ) 


但 是 我 们 不 习 得 一 个 简单 的 ， 和 输入 输出 相关 的 线性 模型 。 我 们 构造 网 络 中 间 的 隐藏 层 ， 它 
们 会 渐进 学 习 抽 象 特征 ， 这 让 我 们 不 会 丢失 复杂 数据 中 的 所 有 细微 差异 。 
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来 源 : Analytics Vidhya 


四 、 和 神经 网 络 和 深度 学 习 62 






就 像 我 们 描述 的 动物 大 脑 检 测 抽 象 特征 ， 隐 藏 层 radon 
哪个 概念 ， 只 要 它 对 于 捕捉 最 多 信息 ， 以 及 使 网 络 输 出 的 准确 度 中 的 损失 最 小 非常 实用 (这 
是 个 发 生 在 网 络 中 的 ， 无 监督 学 习 的 实例 ) © 


这 损失 了 模型 的 可 解释 性 ， 因 为 当 你 添加 更 多 隐藏 层 时 ， 神 经 元 开始 表示 越 来 越 多 的 抽象 和 
无 法 理解 的 特征 。 在 这 个 层面 上 ， 你 可 能 听 说 ， 深 度 学 习 也 被 称 作 “黑箱 优化 ”*， 其 中 你 基本 上 
只 是 随机 党 试 一 些 东 西 ， 然 后 观察 出 现 了 什么 ， 而 无 需 丨 正 理 解 里 面 发 生 了 什么 


线性 回归 是 可 解释 的 ， 因 为 你 决定 了 模型 中 包含 哪个 特征 。 深 度 神经 网 络 难 以 解释 ， 因 为 习 
得 的 特征 在 任何 地 方 都 不 能 用 自然 语言 解释 。 它 完全 在 机 器 的 想象 中 。 


一 些 值 得 注意 的 扩展 和 深层 概念 


e 深度 学 习 软 件 包 。 你 很 少 需要 从 零 开 始 实现 神经 网 络 的 所 有 部 分 ， 因 为 现 有 的 库 和 工具 
使 深度 学 习 更 加 易于 实现 。 有 许多 这 类 东西 TensorFlow, Caffe, Torch, Keras, 以 及 其 


它 


fe) 


@ one 2% (CNN) ° CNN 特地 为 接受 图 像 输入 而 设计 ， 并 且 对 于 计算 机 视觉 任务 非 
常 高 效 。 它 们 也 有 助 于 深度 增强 /强化 学 习 。CNN 的 灵感 特别 来 源 于 动物 的 视觉 皮层 的 工 
作 方 式 ， 并 且 它 们 是 深度 学 习 课 程 的 热点 。 我 们 已 经 在 文 草 中 引用 它 了 ， 就 是 斯 坦 福 
CS231n ° 


© 循环 神经 网 络 (RNN) 。RNN 拥有 内 建 记 忆 的 概念 ， 并 且 非 常 适合 语言 问题 。 它 们 在 强 
化 学 习 中 也 很 重要 ， 因 为 它们 让 智能 体能 够 跟踪 东西 在 哪里 ， 以 及 之 前 发 生 了 什么 ， 其 
至 在 那些 东西 不 能 一 次 性 看 到 的 时 候 。Christopher Olah 编写 了 一 个 非常 棒 的 ， 在 语言 问 
题 的 语 境 中 的 ，RNN 和 LSTM 的 参考 文献 。 


© 深度 增强 /强化 学 习 。 这 是 深度 学 习 研 究 中 的 最 刺激 的 领域 之 一 ， 处 在 近期 研究 的 核心 位 
置 ， 例 如 OpenAl 击败 了 Dota2 职业 玩家 ， 以 及 DeepMind 的 AlphaGo 在 围棋 竞技 中 胜 
过 人 类 。 我 们 在 第 五 章 会 深度 ， 但 是 本 质 上 的 目标 是 将 这 篇 文章 中 的 所 有 技术 ， 应 用 于 
一 个 问题 ， 教 会 智能 体 使 回报 最 大 。 这 可 以 用 于 与 任何 可 以 游戏 化 的 环境 ， 从 各 实 的 游 
戏 ， 例 如 反恐 精英 或 者 吃 豆 人 ， 到 无 人 和 暂 驶 的 汽车 ， 或 者 股票 交易 ， 了 最 终 到 上 趴 实生 活 和 

LEE FR © 


. 


深度 学 习 应 用 
深度 学 习 正 在 重 构 世界 的 几乎 每 个 领域 。 这 里 是 深度 学 习 可 以 做 的 无 法 置信 的 事情 的 示例 : 


e Fackbook 训练 了 一 个 神经 网 络 ， 由 短 时 记忆 加 持 ， 来 智能 地 回答 《指环 王 》 情 节 中 的 问 


wa 0 


Here is an example of what the system can do. After having been trained, 


Facebook Al it was fed the following short story containing key events in JRR Tolkien's 
Research Lord of the Rings: 
@FBAIResearch Bilbo travelled to the cave. 

Gollum dropped the ring there. 
Home Bilbo took the ring. 

Bilbo went back to the Shire. 
About Bilbo left the ring there. 
Be Frodo got the ring. 

Frodo journeyed to Mount-Doom. 
Reviews Frodo dropped the ring there. 

Sauron died. 

Videos Frodo went back to the Shire. 
Boate Bilbo travelled to the Grey-havens. 

The End. 
Community 


After seeing this text, the system was asked a few questions, to which it 
provided the following answers: 


Q: Where is the ring? 


A: Mount-Doom 
Q: Where is Bilbo now? 
A: Grey-havens 
Q: Where is Frodo now? 
A: Shire 
~ 自 FAIR (Facebook Al 实验 室 ) 的 研究 ， 将 加 持 了 分 离 的 短 时 记忆 的 深度 神经 网 


， 应 用 于 回答 LOTR 情节 的 问题 。 这 是 史诗 级 的 定义 。 


© 无 人 驾驶 的 汽车 依赖 深度 学 习 ， 用 于 解决 视觉 任务 ， 例 如 理解 路 面 标志 ， 检 测 道路 和 识 
别 障 碍 。 





来 源 : Business Insider 


e 深度 学 习 可 以 用 于 有 趣 的 东西 ， 例 如 艺术 生成 。 一 个 叫做 Neural Style (神经 风格 ) 的 工 
具 可 以 模拟 艺术 家 的 风格 ， 并 且 用 它 来 重新 组 合 另 一 幅 图 片 ， 令 人 难以 置信 。 





楚 高 的 《星夜 》 的 风格 应 用 于 斯 坦 福 校园 的 图 像 上 ， 通 过 Justin Johnson 的 neural 
style 实现 : https://github.com/jcjohnson/neural-style 


其 它 值得 注意 的 示例 包括 


© 预测 药物 发 现 中 的 分 子 的 生物 活性 


用 于 照片 和 视频 标注 的 人 脸 识 别 。 


增强 谷歌 搜索 的 结果 


自然 语言 理解 和 生成 ， 也 就 是 谷歌 翻译 


火星 探索 者 机 器 人 “好奇 号 ”， 基 于 视觉 检测 ， 自 动 选取 值得 检查 的 土壤 目标 。 


VABRIRS > FERS > RGBT 


现在 开始 去 做 吧 | 


对 于 神经 网 络 如 何 实际 建立 ， 我 们 这 里 没有 涉及 太 多 细节 。 因 为 你 通过 自己 实现 ， 更 易于 理 
解 细节 。 这 里 是 一 些 非常 棒 的 实践 资源 ， 用 于 起 步 。 


e 使 用 谷歌 的 Neural Network Playground 玩 转 神经 网 络 的 架构 ， 来 看 看 不 同 的 配置 如 何 影 
响 网 络 的 性 能 © 


e 使 用 这 篇 谷歌 的 教程 快速 准备 好 并 起 步 : TensorFlow 和 深度 学 习 。 以 超过 99% 的 准确 
度 分 类 手写 数字 ， 你 不 需要 是 PhD， 只 需要 在 三 个 小 时 内 ， 训 TensorFlow 以 及 学 习 深 
度 学 习 概 念 。 


© 之 后 ， 浏 览 斯 坦 福 CS231n 的 至 少 前 几 篇 讲义 ， 以 及 第 一 个 作业 ， 从 零 开 始 构 建 双 层 的 
神经 网 络 ， 来 实际 强化 这 篇 文章 中 涉及 的 概念 。 


深度 学 习 是 个 非常 广阔 的 领域 。 因 此 ， 我 们 也 编译 了 一 些 最 佳 资 源 ， 我 们 在 这 个 话题 中 遇 到 
EAN] > VAR AR ST LIRA T fF 


e Deeplearning.ai 


o 中 文 地 址 
© CS231n : 卷 积 神经 网 络 和 视觉 识别 ， 斯 坦 福 的 深度 学 习 课 程 。 我 看 过 的 最 佳 课 程 ， 带 有 
不 错 的 讲义 和 演示 性 问题 集 。 
o 中 文 地址 
© 神经 网 络 和 深度 学 习 ， 易 读 ， 但 很 严谨 。 


o 中 文 地址 
eo 深度 学 习 圣 经 基础， 更 加 数学 化 。 


o 中 文 地 址 
e Fast.ai， 不 是 很 理论 化 ， 更 加 应 用 和 黑箱 。 


e 查看 Greg Brockman 对 “作为 工程 师 ， 什 么 是 修炼 深度 学 习 技 能 的 最 佳 方式 ? ”问题 的 回 
和 谷 ， 在 Quora 上 。 


下 一 章 : 到 了 玩 游戏 的 时 候 了 | 
最 后 是 第 五 章 : 强化 /增强 学 习 。 


五 、 强 化 学 习 


原文 : Machine Learning for Humans, Part 5: Reinforcement Learning 
作者 : Vishal Maini 
A: RB 
协 仅 : CC BY-NC-SA 4.0 
探索 和 利用 。 马 尔 科 夫 决 条 过 程 。Q 学 习 ， 宁 略 学 习 和 深度 强化 学 习 。 
我 刚刚 吃 了 一 些 巧克力 来 完成 最 后 这 部 分 。 
在 监督 学 习 中 ， 训 练 数据 带 有 来 自 神 一 般 的 “监督 者 "的 答 委 。 如 果 生 活 可 以 这 样 ， 该 多 好 |! 


在 强化 学 习 (RL) 中 ， 没 有 这 种 答案 ， 但 是 你 的 强化 学 习 智能 体 仍然 可 以 决定 如 何 执行 它 的 
任务 。 在 缺少 现 有 训练 数据 的 情况 下 ， 智 能 体 从 经 验 中 学 习 。 在 它 党 试 任务 的 时 候 ， 它 通过 
尝试 和 错误 收集 训练 样本 (这 个 动作 非常 好 ， 或 者 非常 差 ) ， 目 标 是 使 长 期 奖励 最 大 。 


在 这 个 “ 写 给 人 类 的 机 器 学 习 ” 的 最 后 一 章 中 ， 我 们 会 探索 : 


© 探索 和 利用 的 权衡 

。 马尔 科 夫 决策 过 程 (MDP) > AT RL 任务 的 经 典 配置 
学 习 ， 策 略 学 习 和 深度 强化 学 习 

e 也 后 ， 价 值 学习 的 问题 


所 


最 后 ， 像 往常 一 样 ， 我 们 编译 了 一 些 最 喜欢 的 资源 ， 用 于 深入 探索 。 


让 我 们 在 迷宫 中 放 一 个 机 器 老鼠 
思考 强化 学 习 的 最 简单 的 语 境 是 一 个 游戏 ， 它 拥有 明确 的 目标 和 积分 系统 。 


假设 我 们 正在 玩 一 个 游戏 ， 其 中 我 们 的 老鼠 正在 寻找 迷 人 奖励 ( + 
1000 7) ， 或 者 沿 9h fy KA 4 奖励 (+10 分) oH > MESRARSAPA BANE 
域 (€-100 7) 。 





Machine Learning for Humans 他 


奖励 就 是 奶 酷 


一 些 探索 之 后 ， 老 和 鼠 可 能 找到 三 个 水 资源 的 小 型 天 堂 ， 并 且 花 费 它 的 时 间 来 利用 它 的 发 
通 


现 ， 通 过 不 断 积 累 水 资源 的 小 型 奖励 ， 永 远 不 深入 迷宫 来 追求 更 大 的 奖励 。 


但 是 你 可 以 看 到 ， 老 员 会 错误 迷宫 深 处 的 一 片 更 好 的 绿洲 ， 它 就 是 尽头 处 的 奶酪 的 终极 奖 
励 。 


这 就 产生 了 探索 和 利用 的 权衡 。 老 和 鼠 的 一 种 用 于 探索 的 简单 策略 是 ， 在 大 多 数 情 况 下 〈 可 以 
是 80%) ， 做 出 最 佳 的 已 知 动作 ， 但 是 偶尔 探索 新 的 ， 随 机 选取 的 方向 ， 的 
知 奖 励 。 


这 个 策略 叫做 epsilon TA RB > HY epsilon 就 是 “给 定 全 部 已 知 知 识 的 条 件 下 ， 和 智能 体 做 出 
随机 选取 的 动作 ， 而 不 是 更 可 能 最 大 化 奖励 的 动作 ”的 时 间 百 分 比 (这 里 是 20%) 。 我 们 通常 
以 大 量 探索 起 步 (也 就 是 较 高 的 epsilon 值 ) 。 一 会 儿 之 后 ， 随 着 老鼠 更 加 了 解 迷 宫 ， 以 及 哪 
个 操作 产生 更 大 的 长 期 奖励 ， 它 会 将 epsilon 未 渐 降 到 10%， 或 者 其 至 更 低 ， 因 为 它 习 惯 于 
利用 已 知 。 


， 奖励 并 不 总 是 立即 的 : 在 机 器 老鼠 的 示例 中 ， 迷 富里 可 能 有 狭长 的 通道 ， 
你 需要 走 过 它 ， 在 你 到 达 奶 酷 之 前 可 能 有 好 几 个 决策 点 


Action Observation, 


Reward 


Environment 





智能 体 观 测 环境 ， 做 出 动作 来 与 环境 互动 ， 并 接受 正 向 或 者 负 向 的 奖励 。 图 片 来 目 UCB 
CS 294 : 深度 强化 学 习 ， 由 John Schulman 和 Pieter Abbeel 讲授 


马尔 科 夫 决策 过 程 


老鼠 迷宫 之 旅 可 以 形式 化 为 马尔 科 夫 决策 过 程 。 这 是 一 个 过 程 ， wo 状态 的 转移 拥有 特定 
的 概 举 。 我 们 会 通过 参考 我 们 的 机 器 老 息 的 示例 来 解释 。MDP & 


© 有 限 的 状态 集 。 我 们 的 老鼠 在 迷宫 中 有 可 能 的 位 置 。 

© 每 个 状态 上 的 可 用 的 动作 集 。 这 个 就 是 走 万 中 的 "前进 ， 后 退 *， 或 者 十 字 路 口中 的 “前 
进 ， 后 退 ， 左 转 ， 右 转 ”。 

eo 状态 之 间 的 转换 。 例 如 ， 如 果 在 十 字 路 口 左 转 ， 你 就 会 到 达 一 个 新 的 位 置 。 一 系列 概率 
可 能 链接 到 至 少 一 个 状态 上 (也 就 是 ， 当 你 在 口袋 妖怪 游戏 中 使 用 招式 的 时 候 ， 可 能 疫 
打 中 ， 造 成 一 些 伤害 ， 或 者 造成 足够 的 伤害 来 击 倒 对 手 ) 。 

© 和 每 个 转换 有 关 的 奖励 。 在 机 器 老鼠 的 例子 中 ， 多 数 奖 励 都 是 0， 但 是 如 果 你 到 达 了 一 个 
位 置 ， 那 里 有 水 或 者 奶 栈 ， 就 是 正 的 ， 如 果 有 电击 就 是 负 的 。 

e 0 和 1 之 间 的 折 现 系数 y 。 它 量化 了 立即 奖励 和 未 来 奖励 的 重要 性 的 差异 。 例 如 ， 如 
my 是 0.9， 并 且 3 步 之 后 奖励 为 5， 那么 奖励 的 当前 值 就 是 9.9xx*3*5。 

© 无 记忆 。 一 旦 知道 了 当前 状态 ， 老 鼠 的 历史 迷宫 踪迹 可 以 探 除 ， 因 为 马尔 科 夫 的 当前 状 

态 包含 来 自 历史 的 所 有 拥有 信息 。 换 名 话说，“ 了 解 现 在 的 情况 下 ， 未 来 不 取决 于 历史 ”。 


既然 我 们 知道 了 MDP 十 什么 ， 我 们 可 以 形式 化 老鼠 的 目标 。 我 们 尝试 使 长 期 奖励 之 和 最 大 。 


让 我 们 逐 项 观察 这 个 和 式 。 首 先 ， 我 们 所 有 时 间 中 对 步骤 t 求 和 。 让 我 们 在 这 里 将 y 设 为 1 
并 忘掉 它 。 r(x,a) 是 奖励 函数 。 对 于 状态 x 和 动作 a ep ， 它 会 带 
给 你 奖励 ， 和 状态 s 上 的 动作 a 相关 。 回 到 我 们 的 方程 ， 我 们 尝试 使 未 来 奖励 的 和 最 大 ， 通 
过 在 每 个 状态 做 出 最 佳 动作 。 


既然 我 们 建立 了 我 们 的 强化 学 习 问 题 ， 并 形式 化 了 目标 ， 让 我 们 探索 几 种 可 能 的 解决 方案 。 


Q 学 习 : 学 习 动 作 - 分 值 泡 数 


Q 学 习 是 一 种 技巧 ， 它 基于 动作 -分 值 函 数 求解 了 要 做 出 哪个 动作 ， 这 个 函数 确定 了 在 特定 状 
态 下 做 出 特定 行为 的 分 值 。 
ee 

续 动作 ) 在 这 个 状态 上 的 预期 奖励 。 在 我 们 探索 环境 之 前 ，Q 提供 相同 〈 任 意 ) 的 固定 值 。 
但 是 之 后 ， MARNE T ESE ，0 向 我 们 提供 动作 a ERA s 上 的 分 值 的 ， 不 断 优 
化 的 近似 。 我 们 在 这 个 过 程 中 更 新 我 们 的 函数 0 © 


这 个 方程 来 自 维基 百科 的 Q 学 习 页 面 ， 很 好 解释 了 它 。 他 展示 了 ， 我 们 如 何 更 新 Q 的 值 ， 基 
于 我 们 从 环境 中 得 到 的 奖励 : 


learned value 


ETE 
Q(s:, az) = Q (st, at) CQ Y ; max Q (8141, a) = Q(s:, az) 
~ a : 

old value learning rate reward discount factor —————— old value 


estimate of optimal future value 


让 我 们 忽略 折 现 系数 y ， 再 次 将 其 设 为 1。 首先 要 记 住 ，Q 应 该 为 所 有 奖励 之 和 ， 来 自 所 选 
动作 Q 和 所 有 后 续 的 最 优 动作 。 


ee 右 浏览 方程 。 让 我 们 在 状态 st 上 做 出 动作 ， 我 们 更 新 我 们 的 Q(stvat) 的 
值 ， 通 过 向 其 添加 一 项 。 这 一 项 包含 : 


© 22) # alpha : 这 表示 在 更 新 我 们 的 值 时 ， 我 们 有 多 激进 。 当 alpha 接近 0 时 ， 我 们 更 
新 得 不 是 很 激进 。 当 SEG 接近 1 时 ， 我 们 简单 将 原 值 替换 为 新 的 值 。 

© 奖励 reward 就 是 我 们 通过 在 状态 st 做 出 动作 at 得 到 的 奖励 。 所 以 我 们 将 这 个 奖励 添 
加 到 原 有 的 估计 中 。 

© 我 们 也 添加 了 估计 的 未 来 奖励 ， 它 就 是 xt+1 上 的 所 有 可 用 动作 的 ， 最 大 的 可 实现 的 奖 


Inq ° 
e。 最 后 ， 我 们 减 掉 原 有 值 0， 来 确保 我 们 仅仅 增加 或 减少 估计 值 的 差 (当然 要 乘 
上 alpha ) 。 


既然 对 于 每 个 状态 - 的 偶 对 ， 我 们 拥有 了 值 的 估计 ， 我 们 可 以 选取 要 做 出 哪个 动作 ， 根 据 
我 们 的 动作 -选取 策略 (我 们 每 次 不 一 定 选择 导致 最 大 预期 奖励 的 动作 ， 也 就 是 使 用 epsilon 
贪 禁 探索 策略 ， 我 们 以 一 定 百分比 做 出 随机 的 动作 ) © 


在 机 器 老鼠 的 例子 中 ， 我 们 可 以 使 用 Q 学 习 来 找到 迷宫 中 每 个 位 置 的 分 值 ， 以 及 每 个 位 置 上 
动作 "前 进 ， 后 退 ， 左 转 ， 右 转 " 的 分 值 。 之 后 我 们 可 以 使 用 我 们 的 动作 -选取 策略 ， 来 选择 老 
和 鼠 在 每 一 步 实 际 上 做 什么 


策略 学 态 到 动作 的 映射 


在 Q 学 习 方 式 种 ， 我 们 习 得 了 一 个 分 值 函 数 ， 它 估计 了 每 个 状态 -动作 偶 对 的 分 值 
策略 学 习 是 个 更 直接 的 蔡 代 ， 其 中 我 们 习 得 一 个 策略 函数 nt ， 它 是 每 个 状态 到 最 佳 对 应 动作 
的 直接 映射 。 将 其 看 做 一 个 行为 策略 :“ 当 我 观测 到 状态 s 时 ， 最 好 执行 动作 a 。" 例 如 ， 一 
个 自动 驾驶 的 策略 可 能 包括 : “如果 我 看 到 黄 灯 ， 并 且 我 离 十 字 路 口 起 过 100 英尺 ， 我 应 该 售 
下 来 。 否 则 ， 继 续 向 前 移动 。， 
a = 7(s) 

策略 是 状态 到 动作 的 映射 


所 以 我 们 习 得 了 一 个 函数 ， 它 会 使 预期 奖励 最 大 。 我 们 知道 ， 什 么 最 擅长 习 得 复杂 的 函数 
呢 ? 深度 神经 网 络 ! 


Andrej Karpathy 的 Pong from Pixels 提供 了 一 个 杰出 的 示例 ， 关 于 习 得 一 个 用 于 Atari 游戏 
Pong 的 策略 ， 它 接受 来 自 游戏 的 原始 像素 作为 输入 (状态 ) ， 并 输出 向 上 或 向 下 移动 拍子 的 
概率 (动作 ) 。 


raw pixels hidden layer 


Wf + probability of 


AH 
‘ os moving UP 
RRO US 






在 策略 梯度 网 络 中 ， 智 能 体 习 得 最 优 策略 ， 通 过 基于 来 自 环境 的 奖励 信号 ， 使 用 梯度 下 
降 来 调整 它 的 权重 。 图 片 来 自 http://karpathy.github.io/2016/05/31/rl/ 


如 果 你 打算 亲自 试 一 试 深度 RL， 查 看 Andrej 的 文章 。 你 会 在 130 行 代码 内 实现 一 个 二 层 的 
策略 网 络 ， 并 且 会 学 到 如 何 切入 OpenAl 的 训练 场 ， 它 允许 你 实现 并 运行 你 的 第 一 个 强化 学 
习 算 法， 在 大 量 游 戏 上 测试 它 ， 并 且 查 看 它 的 表现 与 其 它 记录 相 比 怎么 样 。 


DQN ，A3C， 和 深度 RL 中 的 进展 


在 2015 年 ，DeepMind 使 用 了 一 个 叫做 深度 Q 网 络 (DQN) 的 方法 ， 使 用 深度 神经 网 络 近 
似 Q 函数 ， 以 便 在 许多 Atari 游戏 中 击败 人 类 : 
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ans 


写 给 人 类 的 机 器 学 


Wa 
>] 
p# 


我 们 展示 了 深度 Q 网 络 的 智能 体 ， 仅 接收 像素 和 游戏 得 分 作为 输入 ， 能 够 超越 所 有 以 前 
的 算法 的 表现 ， 并 在 一 组 49 个 游 
同 的 算法 ， 网 络 架 构 和 超 参 数 。 这 项 工作 弥合 了 高 维 感 知 输 入 和 动作 之 间 的 鸿沟 ， 产 生 
了 第 一 个 人 工 智 能 体 ， 它 能 够 在 多 种 挑战 性 任务 中 ， 学 着 变 得 优秀 。 


2015) 


戏 中 ， 达 到 专业 人 类 游戏 测试 人 员 的 相当 水 平 ， 使 用 相 


(Silver 等 ， 


这 里 是 一 个 截图 ， 展 示 了 在 不 同 领 域 中 ， 与 线性 学 习 器 和 人 类 相 比 ，DQN 的 位 置 。 
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这 些 按照 职业 人 类 游戏 测试 者 来 正则 化 : 0% = 随便 玩 玩 ，100% = 人 类 的 表现 。 来 源 : 
DeepMind 的 DQN 论文 ， 通 过 深度 强化 学 习 的 人 类 级 别 控制 


为 了 帮助 你 构建 一 些 直觉 ， 关 于 这 些 进 展 在 RL 研究 中 产生 ， 这 里 是 一 进 的 例子 ， 关 于 非 
线性 Q 函数 上 的 尝试 ， 它 可 以 改善 性 能 和 稳定 性 。 


eo 经 验 重 放 ， 通 过 随机 化 之 前 的 观测 值 的 更 长 的 序列 ， aaa 的 奖励 ， 来 避免 近期 经 验 
的 过 拟 合 。 这 个 思路 由 生物 大 脑 启 发 : 例如 老鼠 走 迷 宫 ， 在 睡觉 期 间 “ 重 放 ” 神 经 活动 的 模 
式 ， 以 便 提 升 迷 宫 中 的 未 来 表现 。 


© 循环 神经 网 络 (RNN) 扩展 的 DQN。 当 一 个 智能 体 只 能 看 到 它 的 直接 环境 时 (也 就 是 机 
器 老鼠 只 能 看 到 迷宫 的 特定 区 域 ， 而 一 只 乌 可 以 看 到 整个 迷宫 ) ， 智 能 体 需要 记 住 更 大 
的 地 图 ， 以 便 它 记 住 东西 都 在 哪里 。 这 类 似 于 人 类 婴 Te 豆 行 性 ”(object 
permanence) ， 来 了 解 东 西 是 存在 的 ， 即 使 它们 离开 了 婴儿 的 视野 范围 。RNN 是 循环 
的 ， 也 就 是 ， 它 们 允许 信息 长 时 间 存 在 。 这 里 是 深度 循环 Q 网 络 (DQRN) 玩 Doom 的 
视频 ， 令 人 印象 深刻 。 


https://medium.com/media/2286543cfd01ba0ac858ada485/dc635?postid=6eacf258b265 


论文 : https://arxiv.org/abs/1609.05521 ° #4 : Arthur Juliani 的 “使 用 TensorFlow 的 简 
单 的 强化 学 习 ” 系 列 。 


2016 年 ， 仅 仅 在 DQN 论文 的 一 年 之 后 ，DeepMind 发 布 了 另 一 个 算法 ， 叫 做 Asynchronous 
Advantage Actor-Critic (A3C) ， 在 训练 一 半 的 时 间 之 后 ， 超 过 了 Atari 游戏 的 最 先进 的 表现 
(Mnih 等 ，2016) 。A3C 是 一 种 行动 -评判 算法 ， 组 合 了 我 们 之 前 探索 的 两 种 方式 : 它 使 用 
行动 器 (一 个 决定 如 何 行动 的 策略 网 络 ) ， 以 及 一 个 评判 器 (一 个 Q 网 络 ， 决 定 什么 是 有 价 
值 的 东西 ) 。Arthur Juliani 写 了 一 个 不 错 的 ， 特 别 关 于 ASC 网 络 是 什么 样 。A3C 现在 是 

OpenAl 的 Universe Starter Agent ° 


从 那个 时 候 之 后 ， 就 有 了 无 数 吸 引 人 的 突破 -从 Al 发 明 自 己 的 语言 ， 到 教会 他 们 自己 在 多 种 
地 形 中 行走 。 这 个 系列 仅仅 涉及 了 RL 前 沿 的 表面 ， 但 是 我 希望 它 可 以 作为 未 来 探索 的 起 始 
点 。 


另外 ， 我 们 打算 分 享 这 个 DeepMind 智能 体 学 习 走 路 的 视频 ... 并 且 带 有 声音 。 拿 一 些 爆 米 
花 ， 打 开 声 音 ， 然 后 兼 证 人 工 智能 的 所 有 和 荣 灼 。 


https:/medium.com/media/e7187ecd760a815468c4e79c622dc625?postld=6eacf258b265 


练习 材料 和 扩展 阅读 


代码 


e Andrej Karpathy 的 Pong from Pixels 会 让 你 实现 并 运行 第 一 个 强化 学 习 智 能 体 。 文 草 描 
述 了 ，“ 我 们 会 学 着 玩 ATARI 游戏 (HK) ， 使 用 PG， 从 零 开始 ， 来 自 像素 ， 使 用 深度 
神经 网 络 ， 并 且 整 个 东西 是 130 行 的 Python 代码 ， 仅 仅 使 用 NumPy 作为 依赖 (Gist 链 
He) ”。 


e 下面， 我们 高度 推荐 Arthur Juliani 的 使 用 TensorFlow 的 简单 强化 学 习 教 程 。 它 浏览 了 


览 
DQN ， 策略 学 习 ， 行 动 -评判 方法 ， 以 及 使 用 TensorFlow 实现 的 探索 策略 。 尝 试 理解 
它 ， 之 后 重复 实现 涉及 到 的 方法 。 


阅读 + 讲义 


e Richard Sutton 的 书 ，Reinforcement Learning: An Introduction (强化 学 习 导 论 ) ， 一 本 
神奇 的 书 ， 非 常 值得 一 读 

e John Schulman 的 CS294 : 深度 强化 学 习 (UCB) 

e David Silver 的 强化 学 习 课 程 (UCL) 


到 此 为 止 了 | 


如 果 你 到 达 了 这 里 ， 这 就 是 我 们 布 望 的 所 有 奖励 。 


我 们 希望 你 将 这 个 系列 看 做 机 器 学 习 的 简介 。 我 们 在 附录 中 编译 了 一 些 我 们 最 音 欢 的 ML 
资源 ， 如 果 你 准备 好 来 看 看 免 子 洞 有 多 深 的 话 。 


请 不 要 犹 秒 ， 向 我 们 提供 思路 ， 问 题 ， 反 馈 ， 或 者 你 最 喜欢 的 GIF 。 
下 次 再 见 ， 


Vishal 和 Samer 


这 里 是 一 个 基础 的 问题 ， 它 局 发 了 这 个 系列 ， 我 们 打算 也 将 它 给 你 。 


作为 人 类 ， 我 们 的 目标 函数 是 什么 ?我 们 如 何 定义 ， 我 们 在 现实 生活 中 使 其 最 大 化 的 奖 
励 ? 在 基本 的 快乐 和 痛苦 中 ， 我 们 的 奖励 定义 也 倾向 于 包含 混乱 的 事情 ， 像 是 正确 和 错 
误 ， 满 足 ， 爱 情 ， 精 神 ， 和 目的 。 


有 一 些 智力 领域 ， 在 远古 时 期 ， 它们 就 致力 于 “我 们 的 目标 加 数 是 什么 ， 或 者 应 该 是 什 
么 "的 问题 ， 它 叫做 “伦理 学 *。 伦 理学 的 核心 问题 是 : 我 们 应 该 做 什么 ? 我 们 应 该 怎么 样 
或 者 ? 什么 行为 是 正确 或 者 错误 的 ?答案 非常 简洁 : 它 取 决 于 你 的 价值 观 。 


随 着 我 们 创造 出 越 来 越 多 的 高 级 Al， 它 会 开始 远离 玩具 问题 的 领域 ， 像 是 Atari 游戏 ， 
其 中 "奖励 "仅仅 由 游戏 中 赢得 了 多 少 积分 定义 。 并 且 它 们 越 来 越 出 现在 现实 世界 。 例 如 自 
动 驾 驶 ， 需 要 使 用 更 复杂 的 奖励 定义 做 决策 。 了 最 开始 ， 奖 励 可 能 绑 定 在 一 些 东 西 上 ， 例 
如 "安全 到 达 目 的 地 "”。 但 是 如 果 强 制 让 它 选 择 ， 保 持原 路 线 并 撞击 五 个 行人 ， 还 是 转向 并 
撞击 一 个 行人 ， 那 么 它 应 该 不 应 该 转向 呢 ? 如 果 一 个 行人 是 孩子 ， 或 者 持 枪 的 歹徒 ， 或 
者 下 一 个 爱 因 斯 坦 呢 ? 这 样 如 何 改 变 决 策 ， 以 及 为 什么 ?2 如果 转 向 也 会 毁 掉 一 些 值 钱 的 
艺术 品 呢 ? 突然 我 们 有 了 更 加 复杂 的 问题 ， 当 我 们 尝试 定义 目标 函数 ， 并 且 答 案 并 不 简 
单 的 时 候 。 


这 个 系列 中 ， 我 们 探索 了 为 什么 难以 对 计算 机 显 式 规定 猫 是 什么 样子 -- 如 果 你 问 我 们 自 
已 是 怎么 知道 的 ， 答 案 很 简单 ，“ 直 觉 ”-- 但 是 我 们 探索 了 机 器 视觉 的 方式 ， 让 计算 机 自 
己 习 得 这 个 和 直觉。 与 之 类 似 ， 在 机 器 道德 的 领域 ， 可 能 难以 准确 规定 ， 如 何 求解 一 个 行 
为 对 于 另 一 个 的 正确 性 和 错误 性 ， 但 是 ， 或 许 机 器 可 以 用 某 种 方式 习 得 这 些 值 。 这 叫 
做 “价值 学 习 问 题 *， 并 且 它 可 能 是 人 类 需要 解决 的 ， 最 重要 的 技术 问题 之 一 。 

对 于 这 个 话题 的 更 多 东西 ， 请 见 Risks of Artificial Intelligence (人工 智能 风险 ) 的 概要 


性 文章 。 以 及 随 着 你 深入 到 让 机 器 更 聪明 的 世界 中 ， 我 们 鼓励 你 记 住 ，Al 的 进步 是 个 双 
刃 剑 ， 它 的 两 侧 都 特别 锋利 


五 、 强 化 学 习 
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FY AF AY HLS FAD IM 


原文 : The Best Machine Learning Resources 
作者 : Vishal Maini 


EH: 飞龙 


用 于 制定 人 工 智能 、 机 器 学 习 和 深度 学 习 课 程 表 的 资源 概览 。 


制定 课程 表 的 一 般 建 议 


1. 构建 基础 ， 之 后 专攻 兴趣 领域 


你 不 能 深入 每 个 机 器 学 习 话 题 。 有 太 多 药学 的 东西 ， 并 且 领 域 的 进展 较 快 。 掌 握 基础 概念 
之 后 专注 特定 兴趣 领域 的 项 目 -- 无 论 是 自然 语言 理解 ， 计 算 机 视觉 ， 深 度 强 化 学 习 ， 机 器 
人 ， 还 是 任何 其 它 东 西 。 

2. 围绕 最 车 兴趣 的 话题 设计 你 的 课程 表 


对 于 一 些 长 期 学 习 ， 或 事业 目标 来 说 ， 动 机 远 比 稍微 优化 的 学 习 策 略 重要 。 如 果 你 玩 的 开 
心 ， 你 就 会 进展 较 快 。 如 果 你 尝试 强迫 你 自己 前 进 ， 你 就 较 慢 。 


我 们 包含 了 自己 探索 或 高 度 推荐 的 资源 。 这 个 列表 的 并 不 打算 非常 详尽 。 a 的 选 
项 ， 也 有 很 多 选项 是 没有 作用 的 。 但 是 如 果 我 们 错过 了 不 错 的 资源 ， 它 属于 这 里 ， 请 帮 
助 我 们 。 


基础 


译 者 注 : 如 果 有 翻译 过 来 的 免费 中 文 版 ， 会 以 中 文 版 代替 。 如 果 中 文 版 收费 ， 则 会 同时 
提供 英文 和 中 文 链接 。 


编程 


e 语法 和 基础 概念 : 谷歌 的 Python 课程 、 策 办 法 学 Python。 


上 学 获得 一 个 正式 学 位 并 不 总 是 可 行 或 者 令 人 满意 的 。 对 于 那些 考虑 自学 来 代替 的 人 ， 这 
是 写 给 


让 
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e 练习 : CoderByte、CodeWars、HackerRank 。 


线性 代数 
e。 深度 学 习 圣 经 ,第 二 章 : 线性 代数 。 机 器 学 习 相关 的 线性 代数 概念 的 快速 概览 。 
e AFirst Course in Linear Model Theory 〈 线 性 模型 理论 的 第 一 堂 课 ) 。Nalini 


Ravishanker 和 Dipak Dey 所 着 。 在 统计 学 语 境 下 介绍 线性 代数 的 课本 。 


概率 统计 
e。 MIT 18.05， 概 卒 统 计 导 论 ， 由 Jeremy Orloff 和 Jonathan Bloom 讲授 。 提 供 概率 归 因 和 


统计 推断 的 知道 ， 对 于 理解 机 器 如 何 思考 、 规 划 、 和 决 宋 来 说 ， 它 是 无 价 的 。 


e All of Statistics: A Concise Course in Statistical Inference (统计 大 全 : 统计 推断 的 短期 


课程 ) ，Larry Wasserman 所 着 。 统 计 学 的 导论 性 课本 。 


。 可 汗 学 院 : 微分 。 或 者 任何 微 积分 课程 或 课本 。 
e 斯 坦 福 CS231n : 导数 ， 反 向 传播 和 向 量化 ，Justin Johnson 所 着 。 


MLA F >) 


e@ 课程 
o 吴 恩 达 的 机 器 学 习 课 程 ， 在 网 易 云 课堂 上 (更 严格 来 说 ， 是 斯 坦 福 CS229。 
> Thinkful (时间 灵 活 ， 六 


o 数据 科学 训练 
个 月 ， 较 便宜 ) 。 


: Galvanize (全 日 制 ， 三 个 月 ， 较 贵 ) 


e 课本 
o 统计 学 习 导 论 (美文 ， 中 文 ) 


秀和 参考 ， 英 文 版 免费 。 


> Gareth James 等 人 所 着 。 本 质 性 机 器 学 习 概 念 的 优 


深度 学 习 


@ 课程 
o Deeplearning.ai， 吴 思 达 的 导论 性 深度 学 习 课 程 。 
o CS231n : 用 于 视觉 识别 的 卷 积 神经 网 络 ， 斯 坦 福 的 深度 学 习 课程 。 有 助 于 构建 概 


念 ， 带 有 吸引 人 的 讲义 和 演示 性 的 问题 集 。 
。 项 目 
o Fast.ai， 有 趣 而 遍历 的 ， 基 于 项 目的 课程 。 项 目 包 括 猫 狗 的 图 像 分 类 ， 和 尼采 哲学 


的 作品 生成 。 
o 使 用 TensorFlow 分 类 MNIST 手写 数字 。 使 用 这 个 Google 的 教程 ， 以 超过 99% 的 


准确 举 ， 在 三 个 小 时 内 分 类 手写 数字 。 
o 亲自 试 试 Kaggle 的 比赛 。 实 现 感 兴趣 的 深度 学 习 论 文 ， 使 用 Github 上 的 其 它 版 本 
作为 参考 资料 。 
e — 


oO 


a. 


学 习 圣 经 ，|an Goodfellow » Yoshua Bengio 和 Aaron Courville 所 着 。 

9 san 络 和 深度 学 习 ， 清 晰 和 在 线 刻 度 的 深度 学 习 教 程 ，Michael Nielsen P74 ° VA 
一 些 到 达 人 类 级 别 的 智能 结尾 。 

o 深度 学 习 论 文 阅 读 路 线 图 ， 关 键 论文 的 全 集 ， 按 照 时 间 和 研究 领域 组 织 。 


强化 学习 


e@ 课程 

o John Schulman 的 CS294 : 深度 强化 学 习 ， 位 于 UCB 。 

o David Silver 的 强化 学 习 课 程 ， 位 于 伦敦 大 学 学 院 。 

o 深度 RL 训练 营 ， 由 OpenAl 和 UCB 组 织 。 应 用 当前 关闭 了 ， 但 是 值得 看 一 看 未 来 
的 课程 。 

e 项 目 

o Andrej Karpathy 的 Pong from Pixels。 从 零 开 始 ， 在 130 行 代 码 之 内 ， 实 现 打 乒乓 
球 的 智能 体 。 

o Arthur Juliani 的 Simple Reinforcement Learning with Tensorflow (Tensorflow fi 7 
强化 学 习 ) 。 使 用 TensorFlow 实现 Q-learning, policy-learning 和 actor-critic 7 
ee 

o 更 多 思路 请 查看 OpenAl 的 requests for research ° 

e 阅读 


o Richard Sutton 的 书 ，Reinforcement Learning: An Introduction (强化 学 习 导 论 ) 。 
ALF ié 


© 人 工 智 能 : 一 种 现代 方法 (> PL) ， 由 Stuart Russell 和 Peter Norvig 所 着 。 
e Sebastian Thrun 的 优 达 学 城 课程 ， 人 工 智 能 导论 。 
e 奖学金 Insight Al 伙伴 计划 ， 谷 歌 大 脑 实习 项 目 。 


ALF RE 


© 对 于 短 的 版 本 ， 请 阅读 : 1) Johannes Heidecke 的 Risks of Artificial Intelligence (AL 
智能 的 风险 ) 32) OpenAl 和 谷歌 大 脑 的 合作 ，Concrete Problems in Al Safety (Al 安 
全 中 的 具体 问题 ) ;3) Wait But Why 的 文章 AL Revolution (Al 的 进化 ) 。 

e 对 于 长 的 版 本 ， 查 看 Nick Bostrom 的 Superintelligence ( 超 每 能 ) 。 

。 查看 MIRI 和 FHI 发 布 的 Al 安全 方面 的 研究 。 

e 保持 关注 Reddit 上 的 /r/controlproblem ° 
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e Import Al， 每 周 的 Al 通讯 ， 涵 盖 业 界 的 最 新 发 展 。 由 OpenAl 的 Jack Clark 筹划 。 
e Machine Learnings， 由 Sam DeBrule 筹划 。 它 是 这 个 领域 中 经 常客 串 的 专家 。 

e Nathan.ai， 涵盖 近 期 新 闻 ， 和 风 投 视角 的 Al/ML 评论 。 

e The Wild Week in Al， 由 Denny Britz 维护 。 标 题 说 明了 一 切 。 


来 自 其 他 人 的 建议 


e What is the best way to learn machine learning without taking any online courses? (不 
上 任何 在 线 课程 的 情况 下 ， 什 么 是 学 习 机 器 学 习 的 最 佳 方式 ?) ， 由 谷歌 大 脑 的 Eric 
Jang 回答 。 

e What are the best ways to pick up deep learning skills as an engineer? (作为 工程 师 ， 
什么 是 修炼 深度 学 习 技 能 的 最 佳 方 式 ?) ， 由 OpenAl 的 CTO Greg Brockman 回答 。 

e。 A16z 的 Al Playbook (Al 攻略 书 ) ， 更 加 基于 代码 的 介绍 。 

e Al safety syllabus (AI 安全 大 纲 ) ， 由 80,000 Hours 设计 。 





你 选择 了 蓝 色 药丸 ， 然 后 故事 结束 了 。 你 在 你 的 床上 醒 来 ， 并 且 相 信 了 你 打算 相信 的 任 
何 东西 。 你 选择 了 红色 药丸 ， 仍 然 留 在 仙境 中 ， 然 后 我 向 你 展示 免 子 洞 多 深 。-- 
Morpheus 


最 后 祝 你 好 运 ， 再 见 。 


